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内 容 简 介 


这 是 一 本 系统 阐述 Linux 设备 驱动 程序 技术 内 幕 的 专业 书籍 ， 它 的 侧重 点 不 是 讨论 如 何在 Linux 
系统 下 编写 设备 驱动 程序 ， 而 是 要 告诉 读者 隐藏 在 这 些 设 备 驱动 程序 背后 的 那些 内 核 机 制 及 原理 。 
作者 通过 对 Linux 内 核 源码 抽 经 剥 昔 般 的 解读 ,再 辅 之 以 精心 设计 的 大 量 图 片 ， 使 读者 在 阅读 完 本 书 
后 对 驱动 程序 前 台所 展现 出 来 的 那些 行为 特点 变 得 着 然 开朗 。 

本 书 涵盖 了 编写 设备 驱动 程序 所 需要 的 几乎 所 有 的 内 核 设 施 ， 比 如 内 核 模 块 、 中 断 处 理 、 互 斥 
与 同步 、 内 存 分 配 、 延 迟 操 作 、 时 间 管 理 ， 以 及 新 设备 驱动 模型 等 内 容 。 为 了 避免 读者 迷失 在 某 一 
技术 细节 的 讨论 当中 ， 本 书 在 一 个 比较 高 的 层面 上 进行 展开 ， 以 一 种 先 框架 再 细节 的 结构 安排 极 大 
地 简化 了 读者 的 阅读 与 学 习 。 

本 书 不 仅 适 合 那些 在 Linux 系统 下 从 事 设 备 驱 动 程序 开发 的 专业 技术 人 员 阅 读 , 也 同样 适合 有 志 
FMS Linux 设备 驱动 程序 开发 或 对 Linux 设备 驱动 程序 及 Linux 内 核 感 兴趣 的 在 校 学 生 等 阅读 。 对 
于 没有 任何 Linux 设备 驱动 程序 开发 经 验 的 初学 者 ， 建 议 先 阅 读 那些 讨论 “如 何 ” 在 Linux 系统 下 编 
. 写 设 备 驱 动 程序 的 入 门 书籍 ， 然 后 再 阅读 本 书 来 理解 “为 什么 ”要 以 这 样 或 者 那样 的 方式 来 编写 设 
备 驱动 程序 。 


未 经 许可 ， 不 得 以 任何 方式 复制 或 抄袭 本 书 之 部 分 或 全 部 内 容 。 
版 权 所 有 ， 侵 权 必 究 。 
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这 不 是 一 本 单纯 的 关于 Linux 设备 驱动 程序 入 门 的 书 。 它 是 给 有 一 定 的 Linux 设备 驱动 程 
序 编写 经 验 并 且 对 众多 Linux 底层 设备 驱动 内 幕 机 制 感 兴趣 的 读者 量 身 定制 的 。 与 市 面 上 
已 经 出 版 的 Linux 相关 方面 的 图 书 的 不 同 之 处 在 于 ， 本 书 并 不 着 重 于 全 面 描述 Linux AK, 
也 不 只 是 简单 地 告诉 你 如 何 去 写 一 个 Linux 下 的 设备 驱动 程序 。 它 是 从 设备 驱动 程序 的 视 
AER, RAF Linux 内 核 去 剖析 那些 和 驱动 程序 实现 机 制 密 切 相 关 的 技术 内 幕 。 比 如 让 
你 理解 为 什么 在 这 个 地 方 驱动 程序 应 该 使 用 work queue 而 不 是 tasklet， 为 什么 在 中 断 处 理 
例 程 里 应 该 使 用 spin lock 而 不 是 mutex lock…… 因 为 只 有 当 你 对 驱动 程序 中 使 用 的 各 种 内 
核实 现 有 了 清晰 的 认识 ， 你 才能 在 日 常 的 工作 当中 随心 所 欲 地 驾驭 它们 ， 写 出 更 高 性 能 更 
安全 的 代码 。 知 其 然 ， 更 知 其 所 以 然 ， 对 于 沉迷 于 技术 领域 的 人 而 言 ， 这 种 不 断 探索 的 好 
奇 心 是 对 技术 工作 能 长 期 保持 热情 的 一 个 基本 特质 。 相 对 于 市 面 上 已 经 出 版 的 相关 书籍 而 
言 ， 本 书 具 有 以 下 两 个 鲜明 的 特色 : 


细节 揭秘 


目前 市 场 上 已 经 出 版 的 Linux 内 核 和 驱动 程序 方面 的 书籍 ， 大 体 上 可 分 为 两 种 。 一 种 是 侧 
重 于 内 核 本 身 ， 鉴 于 目前 Linux 的 内 核 源码 已 经 十 分 庞大 ， 这 些 讲 解 内 核 的 书 有 些 本 身 非 
常 全 面 ， 作 者 的 写作 态度 也 非常 严谨， 比如 Deep Understanding Linux Kernel, A 3911 H 
版 的 Professional Linux Kernel Architecture, Ja 4% JV thie J Ph Linux 内 核 中 绝 大 部 分 重 
要 的 构件 , 但 也 正 因 如 此 , 这 样 的 书籍 就 不 可 能 在 与 驱动 程序 相关 的 机 制 上 留 下 太 多 笔墨 。 
另外 还 有 一 种 是 专门 讲解 Linux 驱动 方面 的 书籍 , 典型 的 有 Linux Device Driver 和 Essential 
Linux Device Driver。 这 些 书 着 重 于 介绍 Linux 驱动 的 基本 概念 和 架构 ， 但 是 对 于 想 了 解 更 
多 幕后 的 技术 细节 的 读者 来 说 ,《 深 入 Linux 设备 驱动 程序 内 核 机 制 》 一 书 可 提供 更 详细 的 
资源 和 和 帮助。 通常 当 你 想 深入 理解 一 些 一 般 书籍 没有 描述 的 机 制 时 ， 你 可 能 会 采用 在 线 搜 
索 或 查看 源码 的 方式 ， 但 有 时 这 不 仅 费时 也 未 必 能 得 到 满意 的 答案 。 本 书 提供 了 另 一 途径 
让 你 更 系统 、 有 效 地 理解 这 些 内 核 机 制 。 我 相信 对 于 广大 忙于 在 校 学 习 、 职 场 深 造 或 课题 
攻关 的 读者 来 说 ， 本 书 可 提供 很 多 有 益 的 帮助 。 


* IH 


图 片 说 理 


这 本 书 另 外 一 个 很 大 的 特点 是 ， 作 者 大 量 使 用 其 精心 设计 的 图 片 来 帮助 你 清晰 地 理解 一 些 
复杂 的 概念 、 流 程 和 架构 。 这 在 中 文 版 原创 的 图 书 中 是 很 难能可贵 的 ， 相 对 而 言 外 文书 在 
这 方面 做 得 就 要 好 很 多 。 形 象 直观 的 图 片 胜 过 大 量 的 文字 ， 也 能 节省 读者 大 量 的 时 间 。 可 
以 看 到 ， 本 书 的 作者 在 这 一 方面 做 了 很 大 的 努力 去 加 以 完善 ， 在 我 看 来 ， 这 是 一 个 非常 好 
的 尝试 。 本 书 作者 当前 正在 AMD 上 海 研发 中 心 从 事 Linux 显卡 驱动 等 系统 软件 方面 的 研 
发 工作 ， 能 在 繁忙 的 工作 之 余 ， 通 过 对 自己 学 习 和 实践 经 验 的 总 结 写 下 这 样 一 本 书 ， 对 增 
进 国内 读者 的 Linux 系统 开发 能 力 将 起 到 很 大 的 作用 。 我 相信 ， 如 果 作 者 有 足够 的 时 间 与 
精力 的 话 ， 这 本 书 还 可 以 进一步 完善 ， 包 括 在 某 些 技术 方面 可 以 有 更 精细 的 描述 。 


AMD 图 形 软 件 架 构 师 PMTS AAE 
2011 年 8 H 24 HT X 


DII 


HI] 


在 Linux 庞大 的 源码 树 中 ， 设 备 驱 动 程序 部 分 的 代码 已 经 占 了 相当 大 的 比例 。 现 实 的 工作 
中 ， 大 量 的 采用 Linux 系统 的 平台 需要 设备 驱动 程序 才能 把 Linux 的 内 核 真正 运行 起 来 ， 
同时 通过 编写 Linux 设备 驱动 程序 ， 使 得 我 们 经 由 亲手 编写 其 有 特权 等 级 的 代码 来 一 探 
Linux 内 核 幕后 的 秘密 成 为 可 能 。 所 以 ,无 论 是 从 日 常 工作 的 需要 还 是 只 为 单纯 满足 对 Linux 
内 核 机 制 好 奇 心 的 角度 来 说 ， 学 习 并 掌握 Linux 设备 驱动 程序 的 编写 都 是 非常 必要 的 ， 同 
时 也 是 一 件 非 常 有 趣 且 有 意义 的 事情 。 


初衷 与 定位 


这 本 书 并 不 仅仅 是 单纯 地 讨论 如 何在 Linux 系统 下 编写 一 个 设备 驱动 程序 ， 因 为 关于 这 方 
面 的 内 容 ， 市 面 上 已 经 有 大 量 类 似 的 图 书 可 供 参考 。 本 书 的 总 体 思想 是 从 内 核 的 角度 来 看 
设备 驱动 程序 ， 从 设备 驱动 程序 的 角度 深入 到 内 核 中 ， 比 如 通过 对 spin lock 以 及 
spin lock irq 等 内 核 源 码 的 分 析 ， 来 告诉 你 在 什么 场合 下 应 该 使 用 spin lock， 什 么 场合 下 
又 应 该 选择 spin lock irqg。 还 有 ， 比 如 我 们 几乎 每 天 都 会 在 设备 驱动 程序 所 代表 的 内 核 模 
块 中 使 用 MODULE _ LICENSE("GPL") 这 样 的 声明 ,这 个 声明 是 如 此 地 平凡 ， 以 全 于 我 们 常 
常 忽 略 它 存在 的 价值 。 但 是 在 某 个 夜深人静 的 夜晚 ， 感 觉 长 夜 漫漫 无 心 睡 眠 时 ， 在 你 内 心 
深 处 的 某 个 地 方 是 天 会 想 过 ， 这 个 声明 对 一 个 内 核 模 块 而 言 ， 它 到 底 意味 着 什么 ， 如 果 没 
有 它 ， 加 载 这 样 一 个 模块 对 系统 又 会 造成 什么 样 的 影响 ， 如 此 等 等 ， 读 者 都 可 以 在 阅读 本 
书 的 过 程 中 找到 答案 。 


很 显然 ， 只 有 当 你 清楚 地 理解 了 一 个 东西 的 内 在 机 制 ， 你 才能 更 好 地 去 使 用 它们 ， 如 果 不 
幸 在 使 用 过 程 中 出 现 问题 ， 也 才 可 以 快速 将 其 定位 并 最 终了 予以 解决 。 台 湾 闭 名 技术 作家 修 
捷 曾 引 林 雨 堂 先生 在 《 朱 门 》 中 的 一 句 话 “只 用 一 样 东西 , 不 明白 它 的 道理 , 实在 不 高 明 ”， 
来 描述 他 当时 写作 时 的 心境 ， 其 实 这 人 句 话 也 同样 适合 我 用 来 盖 明 写作 本 书 的 初 庄 之 一 。 


但 是 这 并 不 意味 着 只 有 Linux 系统 下 设备 驱动 程序 的 编号 老手 才 适 合 阅 读本 书 ， 因 为 我 在 
本 书写 作 过 程 中 ， 一般 会 先 给 出 一 个 总 体 的 框架 ， 然 后 在 此 基础 上 对 Linux Sear eK 
动 程序 使 用 的 每 一 个 常见 而 重要 的 内 核 设 施 进行 细致 地 分 析 ， 同 时 辅 之 以 验证 性 质 的 代码 
来 使 得 这 种 略 嫌 抽 象 的 讨论 具体 化 ， 以 激发 读者 对 技术 探索 的 兴趣 。 所 以 即便 是 入 门 级 的 
读者 ， 也 可 以 通过 阅读 本 书 来 加 深 对 Linux 下 编写 设备 驱动 程序 的 理解 。 


另外 要 说 的 是 ， 读 者 不 应 该 寄 希 望 于 阅读 两 三 本 书 就 可 以 掌握 Linux 下 设备 驱动 程序 编写 
的 精髓 ， 所 有 的 书籍 只 能 在 大 体 上 给 你 一 个 参考 借鉴 的 作用 ， 真 正 的 理解 还 要 靠 读者 自己 
去 努力 ， 诚 所 谓 “ 纸 上 得 来 终 觉 浅 ， 绝 知 此 事 要 躬 行 ”。 


编排 与 范围 


在 本 书 的 结构 编排 上 ， 我 努力 使 各 章节 独立 起 来 ， 但 是 少量 的 向 前 或 者 向 后 引用 还 是 必 不 
可 少 的 。 但 是 总 体 上 ， 我 将 最 基本 的 篇 章 尽 量 放 到 前 面 ， 一 些 加 强 型 或 者 高 级 点 的 话题 尽 
量 放 到 后 边 。 在 摘 述 驱动 程序 内 核 机 制 方面 ， 为 了 避免 单纯 的 代码 解释 所 市 来 的 抽 和 要 感 ， 
我 会 使 用 具体 的 例子 来 将 所 能 看 到 的 驱动 程序 的 前 台 行 为 和 它 的 幕后 机 制 串联 起 来 ， 以 帮 
助 读者 建立 起 全 面 立体 的 设备 驱动 程序 架构 蓝图 。 不 过 Linux 对 某 些 特 性 的 支持 因为 考虑 
到 各 种 平台 和 性 能 等 诸多 因素 ， 其 实现 很 可 能 会 有 多 种 不 同 的 方法 ， 比 如 从 内 核 态 驱动 程 
序 向 用 户 空间 导出 信息 的 文件 系统 方面 ， 就 至 少 有 proc 和 sysfs 两 种 形式 。 因 此 本 书 在 描 
述 具体 的 例子 时 ， 一 定 是 遵循 其 中 的 某 种 实现 ， 在 诸多 实现 机 制 的 选择 上 ， 本 书 会 从 实用 
性 和 实时 性 角度 出 发 ， 采 用 内 核 中 最 新 引入 或 者 是 最 有 发 展 前 景 的 实现 ， 对 于 某 些 即 将 过 
时 的 实现 机 制 《 因 为 兼容 或 者 代码 维护 工作 量 的 关系 ， 一 些 老 的 机 制 可 能 依然 残留 在 新 版 
的 内 核 代码 中 )， 除非 出 于 技术 细节 的 对 比 或 者 从 增加 知识 面 的 角度 考虑 会 有 所 涉及 ,否则 
将 不 会 作为 本 书 的 主线 。 


在 代码 的 引用 上 ， 为 了 突出 功能 主线 部 分 和 削减 本 书 的 篇 幅 ， 我 会 删除 代码 中 用 来 增加 调 
试 信息 、 性 能 增强 及 防御 性 代码 这 些 部 分 。 对 于 系统 体系 架构 相关 的 代码 ， 我 主要 以 x86 
与 ARM 平台 为 主 ， 因 为 这 两 者 是 当前 最 流行 的 两 种 处 理 器 架构 。 关 于 本 书 所 参考 的 Linux 
内 核 源 码 的 版 本 ， 在 本 书 刚 开 始 写 作 时 参考 的 是 2.6.35 的 版 本 ， 在 写作 的 中 后 期 ， 已 经 将 
内 核 版 本 更 新 到 了 2.6.39， 在 本 书 的 修订 阶段 ， 我 已 经 努力 将 之 前 完成 的 内 容 更 新 到 了 
2.6.39。 当 然 ， 因 为 作者 时 间 精 力 所 限 ， 加 之 Linux 内 核 本 身 就 博大 精深 ， 内 核 版 本 也 一 直 
在 不 断 更 新 变化 中 ， 所 以 书 中 肯定 还 会 有 这 样 那 样 潜在 的 错误 ， 希 望 读 者 朋友 们 能 不 音 批 
评 指正 ， 以 使 我 们 得 以 共同 提高 。 


创作 历程 


我 有 幸 自 参 加 工作 以 来 ， 在 Linux 下 从 事 设 备 驱动 程序 相关 的 开发 工作 已 经 有 9 年 多 的 时 
间 ， 这 期 间 在 Linux 上 所 接触 的 平台 既 有 x86， 也 有 ARM， 甚 至 包括 少量 的 PowerPC。 在 
我 看 来 ， 学 习 某 一 操作 系统 下 的 设备 驱动 程序 的 编写 ， 主 要 包含 两 个 方面 : 一 个 是 该 操作 
系统 本 身 对 设备 驱动 程序 框架 的 支持 ， 也 可 以 称 之 为 设备 驱动 模型 ， 另 一 个 则 是 对 要 驱动 
的 硬件 的 理解 。 对 于 后 者 ， 设 备 驱 动 程 序 开发 者 将 要 面 对 各 种 各 样 的 硬件 设备 ， 了 解 它 们 
的 最 好 也 最 直接 的 方法 当然 是 这 样 硬件 的 datasheet。 前 者 则 主要 和 操作 系统 息息相关 ， 比 
如 在 Linux 系统 下 开发 设备 驱动 程序 ， 必 然 要 熟练 掌握 Linux 为 设备 驱动 的 编写 所 提供 的 


各 种 内 核实 施 及 相关 的 各 种 数据 结构 ， 本 书 的 内 容 主 要 就 是 探讨 Linux 内 核 为 设备 驱动 程 
序 编写 所 提供 的 所 有 这 些 设施 的 幕后 技术 。 


本 书 最 早 的 写作 酝酿 大 约 在 2010 年 10 月 份 前 后 ， 在 此 之 前 ， 或 者 是 出 于 自己 对 以 往 积累 
的 技术 总 结 的 需要 ， 或 者 是 出 于 将 自己 的 一 些 技 术 心 得 与 同行 分 享 的 目的 ， 总 之 ， 我 陆 陆 
续 续 在 一 些 论坛 上 发 表 了 者 干 剖 析 Linux 设备 驱动 程序 内 核 机 制 的 帖子 ， 这 些 帖 子 最 终 使 
我 萌发 了 用 一 本 书 来 总 结 自己 以 往 的 Linux 设备 驱动 程序 开发 经 验 的 想法 。 我 把 最 初 的 大 
约 一 章 半 的 稿子 发 给 了 电子 工业 出 版 社 ， 很 快 就 得 到 了 策划 编辑 张 春 雨 先生 的 肯定 ， 接 下 
来 也 很 顺利 地 遂 过 了 选 题 的 论证 ， 这 之 后 就 是 一 段 极其 浊 长 且 非 常 辛苦 的 写作 过 程 。 时 间 
契 最 大 的 挑 成 ， 由 于 日 天 需要 工作 ， 写 作 的 时 间 只 能 是 留 给 夜晚 或 者 周末 ， 在 写作 最 紧张 
NZ), APRS Rm 2 点 多 。 除 了 时 间 上 的 困难 之 外 ， 如 何 将 一 个 技术 点 用 最 透彻 最 
简洁 的 语言 描述 清楚 ， 如 何 对 Linux 内 核 中 纷繁 复杂 的 内 容 进行 取舍 ， 这 些 也 都 是 非常 耗 
费 精 力 的 事情 。 技 术 本 身 的 理解 也 许 并 不 困难 ， 难 在 如 何 去 把 你 心中 掌握 的 东西 清晰 准确 
地 以 文字 的 方式 表达 出 来 ,这 不 同 于 论坛 的 发 帖 ， 可 以 非常 自由 甚至 随心 所 欲 ， 写 书 的 话 ， 
必须 考虑 它 的 完整 性 、 逻 辑 性 以 及 可 读 性 ， 同 时 还 要 考虑 将 来 潜在 的 读者 群 。 尤 其 是 如 果 
你 想 认 认真 真 写 一 本 书 的 话 ， 有 时 候 甚 至 需要 反复 推荐 一 个 技术 点 的 表达 方式 。 在 写作 灵 
感 枯 竟 的 时 候 ， 看 着 时 间 飞 快 掠 过 ， 而 眼前 的 文档 却 没 有 留 下 几 行 字 ， 那 种 强烈 的 挫折 感 
与 池 形 感 真得 会 让 人 动摇 自己 的 信念 ! 自己 是 否 还 能 坚持 下 去 ? ! 所 以 当 这 本 书 即将 出 版 
时 ， 我 还 很 有 些 鸯 您， 不 敢 相信 自己 居然 太 夺 绊 绊 地 最 终 完成 了 这 些 书稿 。 


意见 反馈 


读者 如 果 在 阅读 本 书 的 过 程 中 有 任何 意见 或 者 建议 ,欢迎 通过 下 面 的 E-mail 与 我 取得 联系 : 
ricard chen(@yahoo.com. 


关于 本 书 使 用 到 的 源 代码 ， 读 者 可 在 www.embexperts.com 网 站 上 下 载 。 另 外 ， 关 于 本 书后 
续 的 一 些 勘 误 、 某 些 技术 细节 方面 的 讨论 也 会 在 该 网 站 相应 的 版 面 上 进行 。 
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* XIV* 


TE 


内 核 模块 


模块 最 大 的 好 处 是 可 以 动态 扩展 应 用 程序 的 功能 而 无 须 重 新 编译 链接 生成 一 个 新 的 应 用 程 
序 映像 ， 这 种 广义 上 的 模块 概念 其 实 并 非 Linux 系统 所 特有 ， 在 微软 的 Windows 系统 上 动 
态 链接 库 DLL (Dynamic Link Library) 便 是 模块 概念 的 一 个 典型 应 用 场景 ， 对 应 到 Linux 
系统 上 这 种 模块 以 所 谓 的 共享 库 so (shared object) 文件 的 形式 存在 1。 


本 章 要 讨论 的 主题 一 一 Linux 内 核 模块 , 在 概念 及 原理 方面 与 上 面 提 到 的 DLL 和 so 模块 类 
似 ， 但 又 有 其 独特 的 一 面 ， 内 核 模块 可 以 在 系统 运行 期 间 动态 扩展 系统 功能 而 无 须 重 新 启 
动 系统 2， 更 无 须 为 这 些 新 增 的 功能 重新 编译 一 个 新 的 系统 内 核 映 像 。 内 核 模块 的 这 个 特性 
为 内 核 开发 者 开发 验证 新 的 功能 提供 了 极 大 的 便利 ， 因 为 像 Linux 这 么 庞大 的 系统 ， 编 译 
一 个 新 内 核 并 重新 启动 将 浪费 开发 者 大 量 的 时 间 。 


虽然 设备 驱动 程序 并 不 一 定 要 以 内 核 模块 的 形式 存在 ， 并 且 内 核 模 块 也 不 一 定 就 代表 着 一 
个 设备 驱动 程序 ， 但 是 内 核 模 块 的 这 种 特性 似乎 注定 是 为 设备 驱动 程序 而 生 。Linux 系统 
下 的 设备 驱动 程序 员 在 开发 一 个 新 的 设备 驱动 的 过 程 中 ,使 用 的 最 多 的 工具 之 一 是 insmod, 
这 就 是 一 个 简单 的 向 系统 动态 加 载 内 核 模块 的 命令 。 很 难 想象 ,如果 没有 insmod 这 样 的 机 
制 ， 在 Linux 底下 调试 一 个 设备 驱动 会 是 怎样 的 一 件 让 人 痛 苗 抓 狂 的 事情 ! 笔者 相信 ， 任 
何 一 个 在 Linux 上 面 有 过 实际 的 驱动 程序 开发 经 历 的 人 都 会 有 类 似 的 感受 。 


Linux 系统 虽然 为 内 核 模块 机 制 提供 了 完善 的 支持 ， 使 得 其 下 的 内 核 模块 是 如 此 强大 ， 然 
而 现实 中 事情 往往 并 非 如 预想 的 那样 一 帆 风 顺 ， 如 果 对 其 幕后 的 机 制 不 甚 了 解 ， 在 实际 的 
开发 过 程 之 中 ， 除 了 驱动 程序 目 身 要 实现 的 功能 可 能 会 过 到 麻烦 以 外 ， 在 利用 Linux 中 的 
内 核 模块 机 制 时 ， 也 会 遇 到 各 种 各 样 的 问题 ， 比 如 在 用 insmod 命令 加 载 一 个 模块 时 ， 就 很 
可 能 会 碰 到 类 似 下 面 的 错误 信息 : 





root@A MDLinuxFGL:/# insmod demodev.ko 


TE Pep, 模块 这 一 术语 在 不 同 的 上 下 文 环境 中 有 不 同 的 语义 。 本 书 中 提 到 的 模块 特 指 某 种 动态 或 者 静态 链接 库 。 
因为 静态 库 在 原理 上 和 动态 库 有 很 大 的 区 别 ， 所 以 本 章 提 到 的 模块 ， 背 后 都 瞳 售 着 动态 链接 的 思想 ， 更 具体 地 ， 就 是 
以 .ko 形式 存在 的 所 谓 内 核 模块 。 

2 如 果 因为 动态 加 载 的 模块 自身 的 原因 导致 系统 崩溃 ， 则 是 另 一 回 事 了 。 
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insmod: error inserting 'demodev.ko': -] Invalid module format 
WR dmesg 一 下 ， 就 会 看 到 内 核 针对 上 述 错误 打印 出 的 出 错 信息 如 下 所 示 : 


demodev: version magic '2.6.39 SMP mod unload 586' should be '2.6.39 SMP mod unload 

modversions 586' 
直觉 上 ， 这 应 该 不 是 在 驱动 程序 自身 要 实现 的 功能 上 出 现 了 问题 ， 问 题 应 该 出 在 驱动 程序 
所 在 的 模块 在 加 载 时 与 系统 中 内 核 模块 框架 互动 的 环节 中 。 很 明显 ，Linux 内 核 设计 中 为 
模块 这 种 机 制 提供 了 完善 的 支持 ， 以 内 核 模块 形式 存在 的 设备 驱动 程序 也 必然 要 遵循 这 种 
框架 下 的 规则 才能 正常 工作 ， 也 许 绝 大 多 数 情 况 下 模块 都 会 工作 得 很 好 ， 然 而 诸如 上 面 提 
到 的 这 类 模块 相关 的 错误 也 绝 非 罕见 。 
既然 规则 不 由 我 们 定义 ， 那 么 了 解 并 遵守 规则 就 成 了 避免 或 者 解决 这 类 问题 的 唯一 途径 。 
一 个 成 熟 的 Linux 设备 驱动 程序 开发 者 应 该 能 很 快 确定 这 些 错 误 的 原因 并 给 出 相应 的 解决 
方案 ， 而 新 手 在 这 类 错误 面前 更 多 的 感觉 则 可 能 是 迷 帆 和 不 知 所 措 。 因 此 ， 无 论 是 出 于 现 
实 工作 的 需要 ， 还 是 为 了 满足 自己 的 好 奇 心 ，Linux 下 的 设备 驱动 程序 员 都 有 必要 花 上 足 
够 多 的 时 间 来 了 解 隐藏 在 内 核 模块 背后 的 技术 细节 ， 而 这 也 正 是 本 章 要 深入 探讨 内 核 模 块 
机 制 的 目的 。 本 章 将 重点 关注 并 讨论 如 下 的 问题 : 


e 模块 的 加 载 过 程 。 
e 模块 如 何 引用 内 核 或 者 其 他 模块 中 的 函数 与 变量 。 

o 模块 本 身 导 出 的 函数 与 变量 如 何 被 别 的 内 核 模块 所 使 用 。 
© 模块 的 参数 传递 机 制 。 

e 模块 之 间 的 依赖 关系 。 

e 模块 中 的 版 本 控制 机 制 。 


1.1 内核 模 块 的 文件 格式 


以 内 核 模块 形式 存在 的 驱动 程序 ， 比 如 demodev.ko， 其 在 文件 的 数据 组 织 形 式 上 是 ELF 
(Executable and Linkable Format) 格式 , 更 具体 地 ， 内 核 模块 是 一 种 普通 的 可 重 定 位 目标 文 
ft. FH file 命令 查看 demodev.ko 文件 ， 可 以 得 到 类 羽 如 下 的 输出 : 


dennis(a)4 MDLinuxFGL:/$ file demodev.ko 
demodev.ko: ELF 32-bit LSB relocatable, Intel 80386, version 1 (SYSV), not stripped 


ELF 是 Linux 下 非常 重要 的 一 种 文件 格式 ， 常 见 的 可 执行 程序 都 是 以 ELF 的 形式 存在 。 本 
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书 不 会 详细 讨论 ELF 格式 的 技术 细节 ， 但 是 为 了 让 读者 能 更 好 地 理解 后 续 的 模块 加 载 、 导 
出 符号 和 模块 参数 等 相关 主题 ， 在 这 里 我 们 结合 Linux 源 代码 中 定义 的 ELF 相关 数据 结构 
(基于 32 位 体系 架构 ),， 给 出 ELF 格式 的 - :个 比较 详细 的 结构 图 ， 如 图 1-1 Bos (这 张 图 在 
后 续 的 小 节 中 会 被 多 次 引用 ): 









Section 1 


. Section n 








而 i TIN 
Section i 
header name’ 
table * ieri 
\ sh. flags: 
: sh addr; 
itx 
\ sh : 
\ sh_link; 
. sh 
X | | 
\ 


#define EIf. Shar EIf32. Shar 
l-1 ELF 文件 视图 格式 


图 1-1 中 忽略 了 驱动 程序 模块 ELF 文件 中 不 会 用 到 的 Program header table。 从 图 1-1 可 以 


看 到 ， 静 态 的 ELF 文件 视图 -总 体 上 可 分 为 三 大 部 分 ， 头 部 的 ELF header， 中 间 的 Section 
和 尾部 的 Section header table. 


O  ELF header 部 分 


大 小 是 52 字 节 , 位 于 文件 头 部 。 对 于 驱动 模块 文件 而 言 , 其 中 一 些 比较 重要 的 数据 成 员 如 下 ;: 
e type 


”在 说 ELF 文件 视图 时 ， 它 估 是 静态 的 。 加 上 “静态 的 ”是 为 了 强调 和 “动态 的 ”执行 期 ELF 内 存 视 图 的 对 比 。 当 然 ， 
ELF 文件 被 加 载 时 总 是 会 先 被 放 到 某 段 内 存 区 域 中 ， 此 时 称 为 “静态 的 ”内 存 视 图 ;而 在 后 续 的 加 载 处 理 过 程 中 ， 其 
在 内 存 中 城 移 的 视图 则 称 为 “动态 的 ”内 存 视 图 ， 简 称 内 存 视 图。 
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表明 文件 类 型 ， 对 于 驱动 模块 ， 这 个 值 是 1， 也 就 是 说 驱动 模块 是 一 个 可 定位 的 ELF 
文件 〈relocatable file). 
e shoff 
表明 Section header table 部 分 在 文件 中 的 偏 称 量 。 
e shentsize 
表明 Section header table 部 分 中 每 一 个 entry X^] (AF SED. 
e shnum 


表明 Section header table 中 有 多 少 个 entry. lt, Section header table 的 大 小 便 为 
e shentsizexe shnum 个 字 节 。 


e_shstrndx 
与 Section header entry 中 的 sh name 一 起 用 来 指明 对 应 的 section 的 name. 


Section 部 分 


ELF 文件 的 主体 ， 位 于 文件 视图 中 间 部 分 的 一 个 连续 区 域 中 。 但 是 当 模 块 被 内 核 加 载 时 ， 
会 根据 各 自 属性 被 重新 分 配 到 新 的 内 存 区域 (有 些 section 也 可 能 只 是 起 辅助 作用 ， 因 而 在 
运行 时 并 不 占用 实际 的 内 存 空间 )。 


© Section header table 部 分 


该 部 分 位 十 文件 视图 的 末尾 ， 由 若干 个 (具体 个 数 由 ELF header 中 的 e_shnum 变量 指定 ) 
Section header entry 组 成 ， 每 个 entry 具有 同样 的 数据 结构 类 型 。 对 于 设备 驱动 模块 而 言 ， 
一 些 比较 重要 的 数据 成 员 如 下 ; 


sh addr 


这 个 值 用 来 表示 该 entry 所 对 应 的 section 在 内 存 中 的 实际 地 址 。 在 静态 的 文件 视图 中 ， 
这 个 值 为 0, 当 模 块 被 内 核 加 载 时 , 加载 器 会 用 该 section 在 内 存 中 的 实际 地 址 来 改写 sh addr 
(如 果 section 不 占用 内 存 空 间 ， 该 值 为 0)。 


sh_ offset 


表明 对 应 的 section 在 文件 视图 中 的 偏 移 量 。 


”在 本 章 中 ，entry 具有 特别 的 含义 ， 特 指 Section header table 中 的 一 个 entry。 在 本 章 接 下 来 的 代码 表示 中 会 多 次 用 到 这 
-用 法 : entry[i 表 示 Section header table 中 索引 值 为 i 的 entry. 
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sh size 


表明 对 应 的 section 在 文件 视图 中 的 大 小 (以 字 节 计 J。 类 型 为 SHT. NOBITS 的 section 
例外 ， 这 种 section 在 文件 视图 中 不 占有 空间 。 


sh entsize 


主要 用 于 由 国定 数量 entry 组 成 的 表 所 构成 的 section， 如 符号 表 ， 此 种 情况 下 用 来 表 
示 表 中 entry 的 大 小 。 | 


以 上 简单 介绍 了 内 核 模块 所 属 ELF 文件 的 一 些 主要 数据 成 员 ， 显 然 设 备 驱动 程序 并 不 会 使 
用 到 这 些 数据 ， 它 们 是 给 内 核 模 块 加 载 器 在 加 载 模块 时 使 用 的 ， 这 里 只 是 为 了 给 后 续 的 模 
块 加 载 过 程 的 讨论 做 一 个 简单 的 技术 铺垫 〈《 如 果 读 者 对 ELF 文件 的 技术 细节 感 兴趣 ， 这 里 
推荐 一 个 非常 实用 的 在 Linux 环境 下 读 取 ELF 文件 傅 息 的 工具 readelf) 。 接 下 来 在 进行 
模块 加 载 这 个 沉重 的 话题 讨论 前 ， 先 来 看 一 个 有 趣 的 东西 :模块 是 如 何 向 外 界 导出 符号 信 
EY. 


1.2 EXPORT SYMBOL 的 内 核实 现 


看 过 Linux 内 核 源 码 的 读者 应 该 知道 ， 源 码 中 充斥 着 像 EXPORT SYMBOL 这 样 的 宏 ， 在 
我 们 自己 的 设备 驱动 程序 中 也 经 常会 发 现 它 的 身影 。 大 部 分 时 间 里 ， 我 们 只 知道 它 用 来 向 
外 界 寻 出 一 个 符号 , 仅 此 而 已 。 我们 对 这 些 宏 是 如 此 习惯 ,以 至 于 常常 忽略 其 存在 的 意义 ， 
更 不 用 说 去 仔细 探究 其 背后 的 实现 原理 了 。 然 而 这 些 不 起 眼 的 宏 却 有 着 大 用 场 ， 如 果 没 有 
它们 ， 我 们 的 驱动 程序 其 至 连 printk 这 样 常见 的 内 核 函 数 都 不 能 使 用 。 


AsV faz EXPORT SYMBOL, EXPORT SYMBOL GPL 和 EXPORT SYMBOL GPL FUTURE 
宏 定 义 导 出 符号 的 内 核 机 制 。 之 所 以 把 导出 符号 作为 独立 的 一 节 ， 是 因为 在 模块 加 载 的 过 
程 中 会 使 用 本 节 描 述 到 的 机 制 ， 而 且 导 出 符号 这 一 特性 在 Linux 系统 中 对 模块 的 存在 具有 
重要 意义 。 读 者 应 该 结合 本 节 和 模块 加 载 部 分 的 相关 内 容 来 理解 如 何 导出 符号 和 使 用 导出 
的 符号 这 一 重要 的 内 核 机 制 。 


如 果 疫 有 独立 存在 的 内 核 模块 ， 作 为 单一 的 Linux 内 核 映 像 ， 导 出 符号 就 失去 了 意义 。 对 
于 静态 编译 链接 而 成 的 内 核 映 像 而 言 ， 所 有 的 符号 引用 都 将 在 静态 链接 阶段 完成 。 然 而 ， 
内 核 模块 的 出 现 让 事情 发 生 了 变化 : 内 核 模 块 不 可 避免 地 要 使 用 到 内 核 提供 的 基础 设施 (以 
调用 内 核 函 数 的 形式 发 生 ), 作为 独立 编译 链接 的 内 核 模块 ， 必 须要 解决 这 种 静态 链接 无 法 
完成 的 符号 引用 问题 (在 内 核 模块 所 在 的 ELF 文件 中 , 这 种 引用 被 称 为 “未 解决 的 引用 ”)。 
处 理 “ 未 解决 引用 ”问题 的 本 质 是 在 模块 加 载 期 间 找到 当前 “未 解决 的 引用 ”符号 在 内 存 
中 的 实际 目标 地 址 。 
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内 核 和 内 核 模块 通过 符号 表 的 形式 向 外 部 世界 导出 符号 的 相关 信息 ， 这 种 导出 符 与 的 方式 
在 代码 层面 以 EXPORT SYMBOL 宏 定 义 的 形式 存在 。 从 全 局 来 看 ，EXPORT_SYMBOL 
这 类 宏 功 能 的 完整 实现 需要 经 过 三 个 部 分 来 达成 : EXPORT_SYMBOL 宏 定 义 部 分 ， 链 接 
脚本 链接 器 部 分 和 使 用 导出 符号 部 分 。 本 节 讲 述 前 两 个 部 分 ， 第 三 部 分 的 描述 将 延 后 到 模 
块 加 载 的 相关 段落 。 


下 面 通过 这 些 宏 定 义 来 仔细 考量 代码 背后 的 技术 细节 。 


a i 


#define EXPORT_SYMBOL(sym, sec) \ 
extern typeof(sym) sym; X 
_ CRC SYMBOL(sym, sec) \ 
static const char — kstrtab ££sym[] \ 
__attribute__((section("__ksymtab_strings"), aligned(1))) \ 
= MODULE SYMBOL PREFIX #sym; \ 
static const struct kernel symbol ksymtab ##sym V 
. used \ 
. attribute  ((section(" — ksymtab" sec), unused}) \ 
= { (unsigned long)&sym, __kstrtab_##sym } 


define EXPORT SYMBOL(sym) \ 
. EXPORT SYMBOL(sym, "") 


#define EXPORT SYMBOL GPL(sym) \ 
__EXPORT_SYMBOL(sym, " gpl") 


#define EXPORT SYMBOL GPL FUTURE(sym) \ 
__EXPORT_SYMBOL(sym, " gpl future") 
以 上 为 来 自 Linux 源码 树 中 的 EXPORT SYMBOL 等 相关 宏 的 定义 细节 。 其 中 的 
. CRC SYMBOL 用 来 作为 版 本 控制 信息 使 用 ， 在 本 章 后 续 的 “模块 的 版 本 控制 ”一 节 中 
将 予以 讨论 。 在 接 下 来 的 分 析 中 ， 为 了 使 读者 更 清楚 其 中 的 实现 细节 ， 笔 者 会 对 内 核 中 的 
源码 稍 作 改写 ， 这 种 改写 并 不 会 改变 原来 代码 的 本 质 ， 而 只 是 为 了 让 读者 看 起 来 更 加 方便 。 
此 外 ， 为 叙述 简单 起 见 ， 将 用 EXPORT SYMBOL(my exp_functiom 作 为 具体 的 例子 ， 即 加 
外 部 导出 一 个 名 为 my exp function. 的 函数 ， 这 个 导出 函数 的 例子 同样 也 用 在 
EXPORT SYMBOL GPL 和 EXPORT SYMBOL GPL FUTURE 中 。 


从 源 代 码 可 以 看 出 ， 每 个 EXPORT SYMBOL 宏 实 际 上 定义 了 两 个 变量 ， 


static const char * kstrtab my exp function = "my exp function"; 
static const struct kernel symbol _ksymtab_my_exp_ function = 
{ (unsigned long)& my exp function,  kstrtab my exp function }; 


第 一 个 变量 是 个 简单 的 char 型 指针 ， 用 来 表示 导出 的 符号 名 称 ; 第 二 个 变量 类 型 是 struct 
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kernel symbol 数据 结构 ， 用 来 表示 一 个 内 核 符号 的 实例 ，struct kernel symbol 的 定义 为 : 


<include/linux/module. h> 


=.. i i ee o *o— — Mou oa is oam —o— ono -€ € ——— AL a 


struct kernel symbol 
{ 


unsigned long value; 
const char *name; 
i 
HP, value 是 该 符号 在 内 存 中 的 地 址 ，name 是 符号 名。 所 以 ， 单 由 该 数据 结构 可 以 知道 ， 
用 EXPORT_SYMBOL(my_exp_function) 来 导出 符号 “my_exp_ function”， 实 际 上 是 要 通过 
struct kernel symbol 的 一 个 对 象 告 诉 外 部 世界 关于 这 个 符号 的 两 点 信息 :符号 名 称 和 地 址 $。 


可 见 ， 由 EXPORT SYMBOL 5&z 
唯一 REA 在 于 它们 被 放 在 了 特定 的 、 section m 
~ 





上 面 的 _kstrtab_my_exp_function 会 被 放置 在 一 个 名 为 “_ksymtab strings” H) section 中 ， 
. ksymtab my exp function 会 放置 在 一 个 名 为 “  ksymtab ”的 section 中 (对 于 
EXPORT_SYMBOL_GPL #1 EXPORT_SYMBOL_GPL_FUTURE 而 言 ,其 struct kernel symbol 
实例 所 在 的 section 名 称 则 分 别 为 “_ ksymtab gpl" #1 *  ksymtab gpl future”). 


ANAE section 的 使 用 需要 经 过 一 个 中 间 环 节 ， 即 链接 脚本 与 链接 器 部 分 。 链 接 脚 本 告诉 链 
接 器 把 所 有 目标 文件 中 的 名 为 “ksymtab” 的 section 放置 在 最 终 内 核 (或 者 是 内 核 模 块 ) 
映像 文件 的 名 为 “_ksymtab” 的 section 中 《〈 对 于 目标 文件 中 的 名 为 “_ksymtab gpl”, 
“__ksymtab_gpl future”. " — kcrctab". " — kcrctab gpl" 和 “ — kcrctab gpl future” 的 section 
都 同样 处 理 )， 看 看 下 面 的 这 个 具体 的 链接 脚本 的 例子 就 很 清楚 T. 


<arch/x86/kernel/vmlinux. lds> 


——— err RP wre ee eB ee ee ee 


__ksymtab : AT(ADDR( ksymtab) - .0xC0000000) - 
{ start — ksymtab —.; *( ksymtab) stop — ksymtab = .; } 


- o2 n HOAm wo oo don - o— adi okzROW MO Gn» — — 5o - nom A ORO. ui n - 


. ksymtab gpl: AT(ADDR( ksymtab gpl) - 0xC0000000) 
{ start — ksymtab gpl —.;*( ksymtab gpl) . Stop — ksymtab gpl .; } 


. ksymtab gpl future: AT(ADDR( — ksymtab gpl future) - 0xC0000000) 
i 

. Start — ksymtab gpl future = .; 

*(_ksymtab gpl future) stop  ksymtab gpl future = .; 

j 


”对 于 由 内 核 模块 导出 的 符号 而 言 ， 由 于 在 静态 链接 时 无 法 确定 该 符号 在 内 存 中 的 最 终 地址 ， 因 此 这 个 地 址 信息 要 一 直 
等 到 模块 被 成 功 加 载 进 系统 后 才 有 效 。 在 模块 加 载 的 过 程 中 ， 由 内 核 模块 加 载 器 负责 修改 该 成 员 以 反映 出 符号 在 内 存 
中 的 最 终 有 目 标 地 址 ， 这 也 就 是 所 谓 的 “ 重 定位 ”过 程 。 
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kerctab : AT(ADDR( — kerctab) - 0xC0000000) 
i. start — kerctab = .; *( kerctab)— stop _ kerctab = ,;} 


. keretab gpl: AT(ADDR(  kerctab gpl) - 0xC0000000) 
{ start — kerctab gpl=.;*(__kerctab gpl) stop _ kcrctab gpl =.; } 


. keretab gpl future: AT(ADDR(  kerctab gpl future) - 0xCO0000000) 
(. start — kcrctab gpl future = .; *( kcrctab gpl future) stop kcrctab gpl future = .; } 


. ksymtab strings: AT(ADDR(  ksymtab strings) - 0xC0000000) 
{ *(__ksymtab_ strings) } 


这 里 之 所 以 要 把 所 有 向 外 界 导出 的 符号 统一 放 到 一 个 特殊 的 section Bi, 是 为 了 在 加 载 其 
他 模块 时 用 来 处 理 那些 “未 解决 的 引用 ”符号 ， 在 稍 后 的 “模块 的 加 载 过 程 ” 一 节 中 可 看 
到 这 种 用 途 。 注 意 这 里 由 链接 脚本 定义 的 几 个 变量 start — ksymtab. — stop ”ksymtab、 
__Start__ksymtab_gpl. _ stop — ksymtab gpl. _ start ksymtab_gpl future. — stop — 
ksymtab_gpl_future， 它 们 会 在 对 内 核 或 者 是 某 一 内 核 模块 的 导出 符号 表 进行 查找 时 用 到 。 
内 核 源码 中 为 使 用 这 些 链 接 器 产生 的 变量 作 了 如 下 的 声明 : 
ee as te Og 

extern const struct kernel symbol start — ksymtab[]; 

extern const struct kernel symbol stop _ ksymtab[]; 

extern const struct kernel symbol start — ksymtab gpl[]; 

extern const struct kernel symbol stop — ksymtab gpl[]; 

extern const struct kernel symbol — start — ksymtab gpl future[]; 

extern const struct kernel symbol stop ^ ksymtab gpl future[]; 

extern const unsigned long — start — kcrctab[]; 


extern const unsigned long — start — kcrctab gpl[]; 
extern const unsigned long — start — kcrctab gpl future[]; 


如 此 ， 内 核 代码 便 可 以 直接 使 用 这 些 变量 而 不 会 引起 编译 错误 。 


内 核 模块 的 加 载 器 在 处 理 模块 中 “未 解决 的 引用 ”的 符号 时 ， 会 使 用 到 这 里 定义 的 这 些 变 
量 。 


1.3 ”模块 的 加 载 过 程 


在 用 户 空 间 , 用 insmod 这 样 的 命令 来 向 内 核 空间 安装 一 个 内 核 模 块 ， 本 节 将 详细 讨论 模块 
加 载 时 的 内 核 行为 。 当 调用 “insmod demodev.ko” 来 安装 demodev.ko 这 样 的 内 核 模块 时 ， 
insmod 会 首先 利用 文件 系统 的 接口 将 其 数据 读 取 到 用 户 空间 的 一 段 内 存 中 ， 然 后 通过 系统 
调用 sys init module 让 内 核 去 处 理 模块 加 载 的 整个 过 程 。 
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1.3.1 sys init module ( 第 一 部 分 ) 
sys init module 的 函数 原型 为 ; 
long sys init module(void __user *umod, unsigned long len, const char — user *uargs); 


其 中 , 第 一 参数 umod 是 指向 用 户 室 间 demodev.ko 文件 映像 数据 的 内 存 地 址 , 第 二 参数 len 
是 该 文 件 的 数据 大 小 ， 第 三 参数 uargs 是 传 给 模块 的 参数 在 用 户 空间 下 的 内 存 地 址 。 


在 sys_init module 函数 中 ， 加 载 模块 的 任务 主要 是 通过 调用 load module PA X GETH], 
该 函数 的 定义 为 : 


<kernel/module.c> 


static struct module *load module(void user *umod, 


unsigned long len, 
const char user *uargs) 


所 有 参数 同 sys init module 函数 中 的 完全 一 样 ， 实 际 上 在 sys init module 函数 的 一 开始 便 
会 调用 该 函数 ， 调 用 时 传 入 的 实 参 完全 来 自 于 sys init module 函数 ， 没 有 经 过 任何 的 处 理 
或 者 修改 。 


为 了 更 清楚 地 解释 模块 加 载 时 的 内 核 行为 ， 我 们 把 sys init module 分 为 两 个 部 分 : 第 一 部 
分 是 调用 load_module, 完成 模块 加 载 最 核心 的 任务 ; 第 二 部 分 是 在 模块 被 成 功 加 载 到 系统 
之 后 的 后 续 处 理 。 我 们 将 在 讨论 完 load module 部 分 之 后 再 继续 讨论 sys init module 的 第 
二 部 分 。 不 过 ， 在 继续 load module 话题 之 前 ， 先 要 看 一 个 内 核 中 非常 重要 的 数据 结构 


— —struct module. 


1.3.2 struct module 


load module 函数 的 返回 值 是 一 个 struct module 类 型 的 指针 ，struct module 是 内 核 用 来 管理 
系统 中 加 载 的 模块 时 使 用 的 一 个 非常 重要 的 数据 结构 ， 一 个 struct module 对 象 代 表 着 现实 
中 一 个 内 核 模块 在 Linux 系统 中 的 抽象 ， 该 结构 的 定义 如 下 (删除 了 一 些 trace 和 unused 
symbol 相关 的 部 分 5: 


<include/linux/ module. h> 


"T7777" 


struct module 


{ 


enum module state state; 


/* Member of list of modules */ 
struct list_head list; 


/* Unique handle for this module */ 
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char name[MODULE NAME LEN]; 


/* Sysfs stuff. */ 

struct module kobject mkohj; 

struct module attribute *modinfo attrs; 
const char *version; 

const char *srcversion; 

struct kobject *holders dir; 


/* Exported symbols */ 
const struct kernel_symbol *syms; 
const unsigned long *cres; 


unsigned int num, syms; 


/* Kernel parameters. */ 
struct kernel param *kp; 


unsigned int num kp; 


/* GPL-only exported symbols. */ 
unsigned int num gpl syms; 
const struct kernel symbol *gpl syms; 


const unsigned long *gpl crcs; 


/* symbols that will be GPL-only in the near future. */ 
const struct kernel symbol *gpl future syms; 

const unsigned long *gpl future cres; 

unsigned int num gpl future syms; 


/* Exception table */ 
unsigned int num exentries; 
struct exception. table entry *extable; 


/* Startup function. */ 
int (*init)(void); 


/* [f this is non-NULL, vfree after init() returns */ 
void *module init; 


/* Here is the actual code + data, vfree'd on unload. */ 
void *module core; 


/* Here are the sizes of the init and core sections */ 
unsigned int init size, core size; 


/* The size of the executable code in each section. */ 
unsigned int init text size, core text size; 


-第 1 章 


/* Size of RO sections of the module (text*rodata) */ 


unsigned int init ro size, core ro size; 


/* Arch-specific module values */ 
struct mod arch specific arch; 


unsigned int taints; /* same bits as kernel:tainted */ 


#ifdef CONFIG KALLSYMS 

d 7 
* We keep the symbol and string tables for kallsyms. 
* The core_* fields below are temporary, loader-only (they 
* could really be discarded after module init). 
my 

Elf Sym *symtab, *core_symtab; 

unsigned int num_symtab, core_num_syms; 

char *strtab, *core strtab; 


/* Section attributes */ 
struct module sect attrs *sect attrs; 


/* Notes attributes */ 
struct module notes attrs *notes attrs; 
Hendif 


#ifdef CONFIG SMP 
/* Per-cpu data. */ 
void — percpu *percpu; 
unsigned int percpu size; 
#endif 


/* The command line arguments (may be mangled). People like 
keeping pointers to this stuff */ 
char * args; 


#ifdef CONFIG MODULE UNLOAD 
/* What modules depend on me? */ 
struct list head source list; 
/* What modules do I depend on? */ 
struct list head target list; 


/* Who is waiting for us to be unloaded */ 
struct task. struct *waiter; 


/* Destruction function. */ 
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void (*exit)(void); 


struct module ref | 
unsigned int incs; 
unsigned int decs; 
). percpu *refptr; 
#endif 


#ifdef CONFIG CONSTRUCTORS 
/* Constructor functions. */ 
ctor fn t *ctors; 
unsigned int num ctors; 
#endif 
h 
我 们 很 快 就 会 在 后 续 的 模块 加 载 部 分 看 到 使 用 这 些 成 员 的 具体 代码 ， 现 在 先 把 一 些 重要 的 
成 员 变 量 简单 摘 述 如 下 : 


enum module state state 


用 于 记录 模块 加 载 过 程 中 不 同 阶段 的 状态 ，module_state 的 定义 如 下 : 


enum module state 
' l 
/模块 被 成 功 加 载 进 系统 时 的 状态 
MODULE STATE LIVE, 

/模块 正在 加 载 中 

MODULE STATE COMING, 
/模块 正在 卸载 中 

MODULE STATE GOING, 


h 
struct list head list 


用 来 将 模块 链接 到 系统 维护 的 内 核 模块 链表 中 ， 内 核 用 一 个 链表 来 管理 系统 中 所 有 被 
成 功 加 载 的 模块 。 | 


char name[MODULE NAME LEN] 
模块 名 称 。 

const struct kernel symbol *syms 
内 核 模块 导出 的 符号 所 在 起 始 地 址 。 


const unsigned long *crcs 


内 核 模块 导出 符号 的 校 验 码 所 在 起 始 地 址 。 
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struct kernel_param *kp 
内 核 模 块 参数 所 在 的 起 始 地 址 。 

int (*init)(void) 
指 问 内 核 模 块 初始 化 函数 的 指针 ， 在 内 核 模 块 源码 中 由 module init 宏 指 定 。 


struct list_head source list 
struct list head target list 


用 来 在 内 核 模 块 间 建 立 依赖 关系 。 


1.3.3 load module 


作为 肉 核 模块 加 载 器 中 最 核心 的 函数 ，load module 负责 最 艰 若 的 模块 加 载 全 过 程 。 我 们 将 
仔细 讨论 该 函数 ， 因 为 除了 可 以 了 解 内 核 模 块 加 载 的 幕后 机 制 之 外 ， 还 能 了 解 到 一 些 非 常 
有 趣 的 特性 ， 诸 如 内 核 模块 如 何 调用 内 核 代 码 导 出 的 函数 ， 被 加 载 的 模块 如 何 向 系统 中 其 
他 的 模块 导出 自己 的 符号 ， 以 及 模块 如 何 接收 外 部 的 参数 等 。 在 介绍 这 部 分 内 容 时 ， 如 果 
完全 按照 内 核 代 码 的 顺序 依 序 进行 的 话 ， 逻 辑 上 可 能 会 显得 比较 凌乱 。 所 以 此 处 文字 组 织 
的 基本 思路 是 : 将 load module 函数 按照 各 主要 功能 分 成 若干 部 分 ， 各 部 分 在 下 文中 的 出 
现 顺序 尽 可 能 维持 在 代码 中 的 出 现 顺 序 ， 如 果 某 些 功能 之 间 存 在 着 某 种 依赖 关系 ， 比 如 有 
A 和 B 两 个 功能 ，A 功能 的 叙述 需要 用 到 B 功能 中 提供 的 机 制 ， 则 先 介绍 B 功能 ;独立 于 
功能 模块 之 外 的 一 些 基 础 设施 ， 比 如 某 些 功能 性 函数 ， 则 尽量 往 前 放 。 


O 模块 ELF 静态 的 内 存 视图 


如 图 1-2 所 示 ， 用 户 空间 程序 insmod 首先 通过 文件 系统 接口 读 取 内 核 模块 demodev.ko 的 
文件 数据 ， 将 其 放 在 一 块 用 户 空间 的 存储 区 域 中 (图 中 void *umod 所 示 )。 然 后 通过 系统 
调用 sys init module 进入 到 内 核 态 ， 同 时 将 umod 指针 作为 参数 传递 过 去 (同时 传 入 的 还 
有 umod 所 指向 的 空间 大 小 len 和 存放 有 模块 参数 的 地 址 空间 指针 uargs )。 


sys init module 调用 load module, 后 者 将 在 内 核 空 间 利 用 vmalloc 分 配 一 块 大 小 同样 为 len 
的 地 址 空间 ， 如 图 1-2 中 Elf_Ehdr *hdr 所 示 。 然 后 通过 copy from user 函数 的 调用 将 用 户 
室 间 的 文件 数据 复制 到 内 核 空 间 中 ， 从 而 在 内 核 空间 构 造 出 demodev.ko 的 一 个 ELF 静态 
的 内 存 视图 。 接 下 来 的 操作 都 将 以 此 视图 为 基础 , 为 使 叙述 简单 起 见 , 我 们 称 该 视图 为 HDR 
视图 (图 1-2 Fy riBI RAP DAL 27). HDR 视图 所 占用 的 内 存 空间 在 load. module 结束 时 通 
过 vfree 予以 释放 。 


O FHP (String Table) 
字符 串 表 是 ELF 文件 中 的 一 个 section, 用 来 保存 ELF 文件 中 各 个 section 的 名 称 或 符号 名 ， 
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这 些 名 称 以 字符 串 的 形式 存在 .。 图 1-3 给 出 了 一 个 具体 的 字符 串 表 实例 ; 





bin 
home ze 
L—c demodevko > 
dev = = 5 - 
to 
ELF header 


Sections 


Section header table 





null string 





1-3 FPE 


由 图 1-3 可 见 ， 字 符 串 表 中 各 个 字符 串 的 构成 和 CC 语言 中 的 字符 串 完 全 一 样 ， 都 以 \0' 作 为 
一 个 字符 串 的 结束 标记 。 由 index 指向 的 字符 捉 是 从 字符 串 表 第 index 个 字符 开始 ， 直 到 过 
到 一 个 \W 标记， 如 果 index 处 恰好 是 0'， 那 么 index 指向 的 就 是 个 空 串 Cul string). 


在 驱动 模块 所 在 的 ELF 文件 中 ,一 般 有 两 个 这 样 的 字符 串 表 section, 一 个 用 来 保存 各 section 
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名 称 的 字符 串 ， 另 一 个 用 来 保存 符号 表 中 每 个 符号 名 称 的 字符 串 。 有 虽然 同样 都 是 字符 串 表 
section， 但 是 得 到 这 两 个 section 的 基地 址 的 方法 并 不 一 样 。 


section 名 称 字 符 串 表 的 基地 址 为 char *secstrings = (char *)hdr + entry[hdr-> 
e_shstrndx].sh_offset。 而 获得 符号 名 称 字符 串 表 的 基地 址 则 有 点 绕 : 首先 要 遍历 Section 
header table 中 所 有 的 entry， 去 找 一 个 entry[il.sh type = SHT SYMTAB 的 entry, 
SHT SYMTAB 表明 这 个 entry 所 对 应 的 section 是 一 符号 表 。 这 种 情况 下 ，entry[il.sh_link 
是 符号 名 称 字符 串 表 section 在 Section header table 中 的 索引 值 ， 换 句 话 说 ， 符 号 名 称 字 符 
串 表 所 在 section 的 基地 址 为 char *strtab = (char *)hdr + entry[entry[i].sh link]. sh offset. 


如 此 , FREE section 的 名 称 ( 假 设 该 section 在 Section header table 中 的 索引 值 是 i), 
那么 用 secstrings + entry[i].sh_name 即 可 。 


至 此 ，load_module 函数 通过 以 上 计算 获得 了 section 名 称 字符 串 表 的 基地 址 secstrings 和 符 
号 名 称 字符 串 表 的 基地 址 strtab， 留 作 将 来 使 用 。 


O ”HDR 视图 的 第 一 次 改写 


在 获得 了 section 名 称 字符 串 表 的 基地 址 secstrings 和 符号 名 称 字符 串 表 的 基地 址 strtab 之 
后 ， 函 数 开始 第 一 次 遍历 Section header table 中 的 所 有 entry， 将 每 个 entry 中 的 sh_addr 改 
写 为 entry[i].sh_addr = (size_t)hdr  entry[i].offset, 3Xff entry[i].sh addr 将 指向 该 entry 所 对 
应 的 section 在 HDR 视图 中 的 实际 存储 地 址 。 


在 遍历 过 程 中 ， 如 果 发 现 CONFIG MODULE UNLOAD 宏 没 有 定义 65， 表明 系统 不 支持 动 
态 芳 载 一 个 模块 ， 这 样 ， 对 于 名 称 为 “.exit” 的 section， 将 来 就 没有 必要 把 它 加 载 到 内 在 
中 ， 内 核 代 码 于 是 清除 对 应 entry 中 sh. flags 里 面 的 SHF_ALLOC 标志 位 。 


相对 于 刚 复制 到 内 核 空间 的 HDR 视图 ，HDR 视图 的 第 一 次 改写 只 是 在 自身 基础 上 修改 了 
Section header table 中 的 某 些 字段 ， 其 他 方面 没有 任何 变化 。 接 下 来 在 “HDR 视图 的 第 二 
次 改写 ”一 节 中 将 会 看 到 改写 后 的 HDR 视图 会 再 次 被 改写 ， 在 那里 ，HDR 视图 中 的 绝 大 
部 分 section 会 被 搬移 到 一 个 新 的 内 存 空间 中 ， 那 也 是 它们 最 终 的 内 存 位 置 。 


QO find sec 函数 


内 核 用 find sec 来 寻找 某 一 section 在 Section header table 中 的 索引 值 ， 其 函数 原型 为 : 


static unsigned int find sec(Elf Ehdr *hdr, 
Elf Shdr *sechdrs, 
const char *secstrings, 


6 CONFIG MODULE UNLOAD 宏 用 来 表明 Linux 内 核 是 否 支持 module 的 unload 特性 , 即 是否 支 持 使 用 rmmod 工具 从 
Lud. PR. 
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const char *name); 


p X [m] i section 的 索引 值 ， 如 果 没 有 找到 对 应 的 section， 则 返回 0。 该 前 数 的 前 两 个 参 
数 分 别 是 ELF 文件 的 ELF header 和 section header。 因 为 函数 要 查找 的 是 革 一 section 的 
name, 所 以 第 三 个 参数 就 是 前 面 提 到 的 secstrings, 第 四 个 参数 则 是 要 查找 的 section 的 name. 
函数 的 具体 实现 过 程 非 肖 简单: 遍历 Section header table 中 所 有 的 entry CARI A 
SHF_ALLOC 标志 的 section, 因为 这 样 的 section 最 终 不 占有 实际 内 存 地 址 ), 对 每 一 个 entry, 
先 找 到 其 所 对 应 的 section name， 然 后 和 第 四 个 参数 进行 比较 ， 如 果 相 等 ， 就 找到 对 应 的 
section， 返 回 该 section 在 Section header table 中 的 索引 值 。 


在 对 HDR 视图 进行 第 一 次 改写 之 后 , 内 核 通过 调用 find sec, 分 别 查找 以 下 名 称 的 section: 
* gnu.linkonce.this module”, “_versions” 和 “.modinfo”。 查 找 的 索引 值 分 别 保存 在 变量 
modindex. versindex 和 infoindex 中 ， 以 备 将 来 使 用 。 


OQ struct module 类 型 变量 mod 初始 化 


1.3.2 市 中 所 到 了 struct module 是 内 核 用 来 表示 一 个 模块 的 非常 重要 的 数据 结构 。 在 
load_module 国 数 中 定义 有 一 个 struct module 类 型 的 变量 mod, 该 变量 的 初始 化 是 通过 模块 
ELF 文件 中 一 个 名 为 “.gnu.linkonce.this module” 的 section 来 完成 的 。 


ELF 文件 中 出 现 的 这 个 section 其 实 是 模块 的 编译 工具 链 完成 的 ， 与 设备 驱动 程序 员 无 关 。 
如 果 我 们 仔细 看 一 下 编译 后 的 模块 所 在 的 目录 ， 一 定 会 发 现 一 个 扩展 名 为 “.mod.c” 的 文 
件 ， 打 开 该 文件 ， 会 发 现 有 如 下 定义 ; 
struct module — this module 
. attribute  ((section(".gnu.linkonce.this module"))) = { 
name = KBUILD MODNAME, 
init = init module, 
#ifdef CONFIG MODULE UNLOAD 
.exit = cleanup module, 
&endif 
arch = MODULE ARCH INIT, 
È 
H P AY attribute ((section(".gnu.linkonce.this_module"))) # 4} (R35 45 Hh d zs T. A 
ELF 文件 中 “.gnu.linkonce.this module" section 出 现 的 根源 。 


这 段 定 义 还 有 一 个 比较 有 趣 的 地 方 在 于 对 struct module 结构 体 中 的 init 和 exit 成 员 变量 的 
初始 化 : 


init = init module 
exit = cleanup module 


直觉 告诉 我 们 ， 这 里 的 init 和 exit 应 该 指向 我 们 的 驱动 程序 源码 中 定义 的 模块 初始 化 和 退 
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出 函数 ， 然 而 经 过 和 实际 的 设备 驱动 程序 源码 对 比 ， 有 些 读者 也 许 会 很 失望 在 驱动 程序 
的 源码 中 定义 的 初始 化 和 退出 函数 并 不 是 init module 和 cleanup module。 这 其 实 是 拜 
module init 和 module exit 宏 所 赐 ， 它 们 利用 了 gec 提供 的 别名 技术 〈__attribute__ (alias))。 


#define module_init(initfn) \ 
static inline initcall t — inittest(void) \ 
{ return initfn; } \ 


int init module(void) attribute ((alias(#initfn))); 


该 宏 定义 的 核心 是 最 后 一 句 ， 它 将 init module 函数 的 别名 设 定 为 initfh， 而 后 者 正 是 我 们 
在 设备 驱动 程序 中 定义 的 模块 初始 化 函数 。 总 之 ， 模 块 的 构造 工具 链 为 我 们 安插 了 一 个 
“ gnu.linkonce.this module" ”section， 并 初始 化 了 其 中 的 一 些 成 员 。 在 模块 加 载 过 程 中 ， 
load module 函数 将 利用 这 个 section 中 的 数据 来 初始 化 mod 变量 ， 


模块 被 加 载 到 内 存 中 之 后 , 内 核 通过 find sec 函数 查找 到 “.gnu.linkonce.this_ module "section 
在 Section header table 中 所 对 应 的 索引 值 modindex， 这 样 通 过 下 面 这 行 简单 的 代码 就 得 到 
J “.gnu.linkonce.this_ module" section 在 内 存 中 的 实际 地 址 。 


mod = (void *)sechdrs[modindex].sh addr; 


于 是 , 在 第 一 次 改写 的 HDR 视图 的 基础 上 , mod 指针 指向 了 实际 的 struct module 所 在 的 内 
人 存 地 址 。 接 下 来 我 们 会 看 到 ， 在 HDR 视图 第 二 次 被 改写 后 ，mod 指针 将 会 重新 指向 
“ gnu.linkonce.this module" section 在 内 存 中 的 最 终 地 址 。 | 


O HDR 视图 的 第 二 次 改写 


在 这 雇 改 写 中 ，HDPR 视图 中 绝 大 多 数 的 section 会 被 搬移 到 新 的 内 存 空间 中 ， 之 后 会 根据 
这 些 section 新 的 内 存 地 址 再 次 改写 图 1-2 中 的 HDR 视图 , 使 其 中 Section header table 中 各 
entry 的 sh_addr 指向 新 的 也 是 最 终 的 内 存 地 址 。 


在 为 那些 需要 移动 的 section 分 配 新 的 内 存 空间 地 址 之 前 ， 内 核 需要 决定 出 HDR 视图 中 哪 
二 section 需要 移动 ， 如 果 移 动 的 话 要 移动 到 什么 位 置 。 内 核 代 码 中 layout sections 函数 用 
来 做 这 件 事 ， 在 layout sections 函数 中 ， 内 核 会 遍历 HDR 视图 中 的 每 一 个 section， 对 每 一 
个 标记 有 SHF_ALLOCTH] section， 将 其 划分 到 两 大 类 section 4P: CORE 和 INIT. 


为 了 完成 这 种 分 类 ，layout sections 函数 首先 为 标记 了 SHF_ALLOC 的 section 定义 了 四 种 
类 型 : code、read-only data, read-write data 和 small data。 任 何 一 个 标记 了 SHF ALLOC 的 
section 必定 属于 这 四 类 中 的 一 类 ,之 后 , 对 应 每 一 个 分 类 , 函数 都 会 遍历 Section header table 


7 SHF_ALLOC 标记 表示 该 section 在 模块 运行 过 程 中 ， 需 昌 占 用 内 存 空间 。 根 据 ELF spec(Portable Formats Specification, 
Version 1.1):SHF_ALLOC—The section occupies memory during process execution. Some control sections do not reside in 


the memory image of an object file, this attribute is off for those sections. 
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中 的 所 有 项 ， 将 section name 不 是 以 "init" 开 始 的 section 划 归 为 CORE section， 并 且 修 改 
HDR 视图 中 Section header table 中 对 应 entry 的 sh. entsize, 用 以 记录 当前 section 在 CORE 
section "F E ES E. 


entry(i].sh_entsize = mod-^core size; 


同时 用 struct module 结构 中 的 成 员 变 量 core size 记录 下 到 当前 正在 操作 的 section Wik 
CORE section 的 空间 大 小 。 


mod->core_size += entry[i].sh size; 
对 于 CORE section 中 的 code section， 内 核 用 struct module 结构 中 的 core_text_size 来 记录 。 


对 于 INIT section 的 分 类 ， 和 CORE section 的 划分 基本 一 样 ， 不 同 的 地 方 在 于 属于 INIT 
section 的 section, H name 必须 以 "init" 开 始 , 内 核 用 struct module 结构 中 的 成 员 变量 init size 
来 记录 当前 INIT section 空间 的 大 小 。 


mod->init_size += entry[i].sh size; 
对 于 INIT section 中 的 code section, TZ FH struct module 结构 中 的 init text. size 来 记录 。 


TEX] section 进行 搬移 之 前 ， 接 下 来 会 有 个 对 符号 表 的 处 理 ， 内 核 代码 中 通过 调用 
layout symtab A BLK sc AK. Linux 的 内 核 源 码 中 根据 是 否 启 用 了 内 核 配置 选项 
CONFIG KALLSYMS 给 出 了 layout symtab 函数 的 两 种 不 同 的 定义 。 


如 果 没 有 启用 CONFIG KALLSYMS, WMA layout symtab 函数 就 是 个 空 函 数 ， 不 做 任何 事 
情 。CONFIG KALLSYMS 是 一 个 决定 内 核 映像 中 是 否 保 留 所 有 符号 的 配置 选项 ， 在 内 核 - 
配置 文件 Kconfig 中 ， 可 以 看 到 如 下 说 明 : 


Say Y here to let the kernel print out symbolic crash information and symbolic stack backtraces. This 
increases the size of the kernel somewhat, as all symbols have to be loaded into the kernel image. 


简 言 之 ， 这 是 个 为 了 方便 系统 调试 而 增加 的 选项 ， 局 用 它 的 代价 就 是 导致 最 终 内 核 映 像 文 
件 变 大 《当然 占用 的 系统 内 存 也 会 相应 增加 )。 


在 启用 了 CONFIG KALLSYMS 选项 的 Linux 源码 树 基础 上 编译 内 核 模块 ， 会 导致 内 核 模 
块 也 会 保留 模块 中 的 所 有 符号 , 这 些 符号 都 放 在 ELF 符号 表 section 中 。 由 于 在 内 核 模块 的 
ELF 文件 中 , 符号 表 所 在 的 section 没有 SHF_ALLOC 标志 , 所 以 上 面 提 到 的 layout. sections 
函数 不 会 把 符号 表 section 划 到 CORE section 或 者 是 INIT section 中 ， 这 也 是 为 什么 要 通过 
另外 一 个 函数 layout_symtab 来 把 符号 表 搬 称 到 CORE section 内 存 区 中 的 原因 。 


在 对 内 核 模 块 ELF 文件 中 的 section 进行 了 CORE 和 INIT 的 划分 之 后 ， 内 核 调用 vmalloc 
相关 的 函数 为 CORE section 和 INIT section 分 配对 应 的 内 存 空 间 ， 基 地 址 分 别 记录 在 
mod->module_core 和 mod->module init 中 ， 然 后 把 对 应 的 section 数据 搬移 到 其 在 CORE 
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section 和 INIT section 内 存 空间 的 最 终 位 置 上 。 显 然 ， 在 把 各 section 搬移 到 其 新 的 内 存 地 
址 之 后 ， 内 核 需 要 改写 HDR 视图 中 的 Section header table 中 对 应 entry 的 sh addr， 以 使 其 


注意 ， 由 于 此 时 “.gnu.linkonce.this_module ”section 是 一 个 带 有 SHF ALLOC 标志 的 可 写 
数据 section, 也 会 被 搬移 到 CORE section 内 存 空间 中 , 所 以 必须 更 新 mod 变量 使 之 指向 新 
的 内 存 地 址 。 


mod = (void *)entry[modindex].sh addr; 


这 里 之 所 以 要 对 HDR 视图 中 的 某 些 section 做 这 样 的 搬移 , 是 因为 在 模块 加 载 过 程 结 束 时 ， 
系统 会 释放 掉 HDR 视图 所 在 的 内 存 区 域 ,不 仅 如 此 ,在 模块 初始 化 工作 完成 后 ,INIT section 
所 在 的 内 存 区 域 也 会 被 释放 掉 。 由 此 可 见 ， 当 一 个 模块 被 成 功 加 载 进 系统 ， 初 始 化 工作 完 
成 之 后 ， 最 终 留 下 的 仅仅 是 CORE section PHAR, EJE CORE section 中 的 数据 应 是 模块 
在 系统 中 整个 存活 期 会 使 用 到 的 数据 。 


如 此 处 理 之 后 ， 我 们 在 图 1-2 的 基础 上 得 到 了 图 1-4: 


CORE section pj £F [X tyi 
- - — mod--module core 








EIf Ehdr 
"hdr 


ection 内存 区 域 


ea e, - mod>module init 
EL = | pr 
se Bak Pis 





w : 
HDR 视 图 `、~ E. 


图 1-4 模块 加 载 时 的 section 搬移 
O 模块 导出 的 符号 


我 们 知道 模块 不 仅 可 以 使 用 内 核 或 者 其 他 模块 导出 的 符号 ， 而 且 可 以 向 外 部 导出 自己 的 符 
号 ， 模 块 导 出 符号 使 用 的 宏和 内 核 导 出 符号 所 使 用 的 完全 一 样 ， EXPORT SYMBOL, 
EXPORT SYMBOL GPL 和 EXPORT SYMBOL FUTURE. tH 1.2 节 对 这 些 宏 的 代码 分 析 
可 知 ， 内 核 模 块 会 把 导出 的 符号 分 别 放 到 “ksymtab ”、“  ksymtab gpl” 和 
*  ksymtab gpl future” section 中 。 
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如 果 一 个 内 核 模块 各 外界 写 出 了 目 己 的 符号 ， 那 么 将 由 模块 的 编译 工具 链 负 责 生 成 这 些 导 
出 符号 section, 而 且 这 些 section 都 带 有 SHF ALLOC 标志 ,所 以 在 模块 加 载 过 程 中 会 被 搬 
移 到 CORE section 区 域 中 ,如果 模 块 没 有 向 外 界 导出 任何 符号 , 那么 在 模块 的 ELF X fm, 
将 不 会 产生 这 些 section. 


显然 ， 内 核 需 要 对 模块 导出 的 符号 进行 管理 ， 以 便 在 处 理 其 他 模块 中 那些 “未 解决 的 引用 ” 
符号 时 能 够 找到 这 些 符 号 。 内 核对 模块 导出 的 符号 的 管理 使 用 到 了 struct module 结构 中 如 
下 的 成 员 变量 : 

struct module 

1 


/* Exported symbols */ 
const struct kernel. symbol *syms; 
const unsigned long *crcs; 


unsigned int num syms; 


/* GPL-only exported symbols. */ 
unsigned int num gpl syms; 

const struct kernel symbol *gpl syms; 
const unsigned long *gpl crcs; 


/* symbols that will be GPL-only in the near future. */ 
const struct kernel symbol *gpl future syms; 

const unsigned long *gpl future crcs; 

unsigned int num gpl future syms; 


} 


在 把 HDR 视图 中 的 section 搬移 到 最 终 的 CORE section 和 INIT section 之 后 ， 内 核 通过 对 
HDR 视图 中 Section header table 的 查找 ， 获 得 “ ksymtab”、“  ksymtab gpl" 和 
"  ksymtab gpl future” section 在 CORE section 中 的 地 址 ， 将 其 记录 在 mod->syms、 
mod->gpl syms 和 mod->gpl future syms 中 ， 代 码 片 段 如 下 : 


i = find sec(...," ksymtab",...); 
mod->syms = (struct kernel symbol *)entry[i]l.sh addr; 


j = find sec(...," ksymtab gpl ",...); 
mod--syms gpl = (struct kernel symbol *)entry[i].sh_addr; 
k = find sec(...," ksymtab gpl future ",...); 


mod--gpl future syms = (struct kernel symbol *)entry[i].sh addr; 


如 此 ， 内 核 通 过 这 些 变量 将 可 得 到 模块 导出 的 符号 的 所 有 信息 ， 如 图 1-5 所 示 。 读 者 将 在 
fe FRAY “find symbol 国 数 ”部 分 中 看 到 这 些 变量 的 具体 用 途 。 
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CORE section 内 存 区 域 
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图 1-5 内 核 模块 导出 的 符号 


O find symbol 函数 


在 模块 加 载 过 程 中 ，find_symbol EAFA E SE AM, MARX, CHRAR- TS. 
该 函数 的 原型 如 下 : 


const struct kernel symbol *find symbol(const char *name, 
struct module **owner, 
const unsigned long **crc, 
bool gplok, 
bool warn); 


其 中 ， 第 一 个 参数 表示 要 查找 的 符号 名 ， 第 二 个 参数 用 以 表明 符号 可 能 所 在 的 模块 。 


在 深入 到 这 个 函数 内 部 之 前 ， 有 必要 先 介 绍 几 个 数据 结构 ， 这 几 个 数据 结构 将 在 
find symbol 函数 中 用 到 。 
struct symsearch { 
const struct kernel symbol *start, *stop; 
const unsigned long *crcs; 
enum { 
NOT GPL ONLY, 
GPL ONLY, 
WILL BE GPL ONLY, 
} licence; 
bool unused; 
E 
struct symsearch 用 来 对 应 要 查找 的 每 一 个 符号 表 section， 换 句 话 说， 对 要 查找 的 每 个 符号 
表 section， 内 核 代 码 都 要 为 之 产生 一 个 struct symsearch 类 型 的 实例 。 结 构 体 中 的 成 员 变 量 
start 和 stop 分 别 指向 对 应 section 的 开始 和 结束 地 址 ，bool 型 的 unused 成 员 用 来 表示 内 核 
是 否 配 置 了 CONFIG UNUSED SYMBOLS 选项 ， 不 过 这 个 选项 是 “ 非 主 流 ” 的 ， 长 远 看 
这 个 选项 最 终 会 消失 ， 因 此 本 书 只 在 这 里 提 一 下 ， 在 后 续 的 章节 中 将 忽略 所 有 该 选项 被 启 
用 时 才 起 作用 的 代码 。 另 一 个 比较 重要 的 成 员 是 enum 型 的 licence，GPL_ONLY 表示 符号 
只 提供 给 满足 GPL 协议 的 模块 使 用 ，NOT_GPL_ONLY 表示 不 一 定 要 只 给 满足 GPL 协议 
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的 模块 使 用 ， WILL BE GPL ONLY 表示 将 来 只 提供 给 满足 GPL 协议 的 模块 使 用 。 再 提醒 
一 下 ，NOT GPL ONLY 符号 由 EXPORT SYMBOL 负责 导出 ，GPL ONLY 符号 由 
EXPORT SYMBOL GPL 人 负责 导出 ，WILL BE GPL ONLY 符号 由 EXPORT SYMBOL . 
GPL FUTURE 负责 导出 。 


struct find symbol arg { 
/* [nput */ 
const char *name; 
bool gplok; 
bool warn; 


/* Output */ 

struct module *owner; 

const unsigned long *crc; 

const struct kernel symbol *sym; 
h 


find symbol arg 用 做 查找 符号 的 标识 参数 ， 可 以 看 到 其 大 部 分 数据 成 员 与 find symbol K 
数 原型 中 的 参数 完全 一 致 ， 其 中 的 kernel symbol 是 一 个 用 以 表示 内 核 符号 构成 的 数据 结 
构 ， 在 前 面 的 “EXPORT SYMBOL 的 内 核实 现 ” 一 节 中 介绍 过 。 


以 下 仔细 分 析 find symbol 的 功能 ， 其 源 代码 如 下 : 


<kernel/module.c> 

const struct kernel_symbol *find_symbol(const char *name, 
struct module ** owner, 
const unsigned long **crc, 
bool gplok, 
bool warn) 


struct find symbol arg fsa; 


fsa.name — name; 
fsa.gplok — gplok; 
fsa.warn = warn; 


if(each symbol(find symbol in section, &fsa)) { 
if (owner) 
*owner = fsa.owner; 
if (crc) 
*crc — fsa.crc; 
return fsa.sym; 
} 


DEBUGP("Failed to find symbol %s\n", name); 
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retum NULL; 
} 


RCS TR RRR IRE fsa, 然后 通过 each symbol 来 查找 符号 。each_ symbol 
是 用 来 进行 符号 查找 的 主要 阔 数 ， 为 节约 篇 幅 起 抑 ， 这 里 不 再 摘录 其 源 代 码 ， 而 是 直接 讲 
述 其 主要 功能 框架 。 


总 体 上 ，each_symbol 函数 可 以 分 成 两 个 部 分 : 第 一 部 分 是 在 内 核 导 出 的 符号 表 中 查找 对 应 
的 符号 ， 如 果 找 到 ， 就 通过 fsa 返回 该 符号 的 信息 ， 否 则 ， 再 进行 第 二 部 分 的 查找 ， 第 二 
部 分 是 在 系统 中 已 加 载 的 模块 《系统 中 所 有 已 成 功 加 载 的 模块 都 以 链表 的 形式 保存 在 -- 个 
全 局 变量 modules 中 ) 的 导出 符号 表 中 查找 对 应 的 符号 , 如 果 找 到 就 通过 fsa 返回 该 符号 的 
信息 ， 否 则 函数 返回 false。 图 1-6 展示 了 find symbol 在 查找 一 个 符号 时 的 搜索 路 径 ; 


Linux 内 核 映像 





find symbol() | 


m SE ES 


图 1-6 find symbol 查找 符号 时 的 搜索 路 径 | 
第 一 部 分 在 对 内 核 符号 表 进行 查找 时 ， 首 先 构 造 一 个 struct symsearch 类 型 的 数组 arr. 


static const struct symsearch arr[] = { 
(. start — ksymtab, stop — ksymtab, start — kcrctab, 
NOT GPL ONLY, false }, 
{ start — ksymtab gpl, stop — ksymtab gpl, 
. Start — kcrctab gpl, 
GPL ONLY, false }, 
{ start — ksymtab gpl future, stop ksymtab gpl future, 
. Start — kcrctab gpl future, 
WILL BE GPL ONLY, false }, 
}; 


注意 这 里 的 _start  ksymtab. _ start —kcrctab 和 stop ksymtab 等 变量 已 经 在 前 面 的 
“EXPORT_SYMBOL 的 内 核实 现 ” 一 节 中 交代 过 ， 它 们 在 内 核 的 链接 脚本 中 定义 ， 由 链接 
器 负责 产生 ， 由 内 核 源 码 负责 声明 ， 现 在 到 了 使 用 它们 的 时 候 了 。 


接 下 来 函数 通过 调用 each symbol in section. 查询 内 核 的 导出 符号 表 ， 
each symbol in section 的 核心 代码 如 下 (经 过 适当 改写 ); 
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<kernel/module.c> 
static bool each symbol in section(const struct symsearch *arr,struct module *owner,void *fsa) 
{ 

unsigned int i, j; 

for(j =0;)< ARRAY SIZE(arr); j++) { 

for (i = 0; i < arr[j].stop - arr[j].start; i++) 
if (find_symbol_in_section(&arr[j], owner, i, fsa)) 
return true; 


} 


return false; 
} 


为 了 在 内 核 的 导出 符号 表 中 查找 某 一 指定 的 符号 名 ，each_symbol in section 函数 使 用 了 两 
Ke for 循环 ; 外 层 j 引导 的 for 循环 用 来 遍历 符号 可 能 所 在 的 内 核 导 出 符号 表 中 的 各 section; 
内 层 i 引导 的 for 循环 用 来 遍历 外 层 for 循环 所 指定 的 section 中 的 每 个 struct kernel. symbol 
类 型 的 元 素 。 对 于 每 个 kernel symbol, #842144 find symbol in section 函数 。 


为 了 清楚 地 理解 内 核 加 载 模块 时 如 何 处 理 “ 未 解决 的 引用 ”符号 ， 有 必要 仔细 分 析 一 下 
find symbol in section 盟 数 的 主要 功能 。 因 为 对 Linux 下 的 设备 驱动 程序 员 而 言 ， 几 平 每 
天 都 在 和 这 个 功能 打交道 , 清楚 地 理解 其 内 核 机 制 , 将 来 一 旦 在 加 载 模块 时 出 现 相关 问题 ， 
也 可 以 将 其 快速 定位 并 最 终 解决 。 男 外 ， 对 于 带 有 “_GPL” 后 织 的 符号 名 ， 在 写 驱动 程序 
的 内 核 模块 时 常常 会 遇 到 ， 然 而 其 背后 到 底 葡 涵 着 怎样 的 设计 理念 昵 ? 通 过 分 析 
find_symbo | in section 函数 ， 就 可 以 得 到 所 需 的 答案 。 


find symbol in section 函数 的 完整 源 代码 如 下 : 


<kernel/module.c> 
struct module *owner, 


unsigned int symnum, void *data) 
struct find symbol arg *fsa = data; 


if (stremp(syms--»start[symnum].name, fsa->name) != 0) 
return false; 


if (!fsa->gplok) { 
if (syms->licence — GPL ONLY) 
return false; 
if (syms->licence == WILL BE GPL ONLY && fsa->warn) ( 
printk(KERN WARNING "Symbol %s is being used " 
"by a non-GPL module, which will not " 
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"be allowed in the future\n", fsa->name); 
printk(KERN_WARNING "Please see the file " 

“Documentation/feature-removal-schedule.txt " 

"jn the kernel source tree for more details.\n"); 


} 


fsa->owner = owner; 

fsa->cre = symversion(syms->crcs, symnum); 
fsa->sym = &syms->start[symnum]}; 

return true; 


} 


函数 首先 用 strcmp 函数 来 比较 kernel. symbol 结构 体 中 的 name 与 fsa 中 的 name (正在 查找 
的 符号 名 ， 即 要 加 载 的 内 核 模 块 中 出 现 的 “未 解决 的 引用 ”的 符号 ) 是 否 匹 配 ， 如 果 不 距 
配 ， 那 么 函数 直接 返回 false. 


fsa->gplok 和 fsa->warn 的 设 定 最 早 是 在 find symbol 函数 中 ， 是 通过 后 者 的 函数 参数 传 入 
的 。fsa->warn 主要 用 来 控制 警告 信息 的 输出 fsa->gplok 用 来 表示 当前 的 模块 是 不 是 满足 
GPL 协议 (GPL module 或 non-GPL module), fsa->gplok = true 表明 这 是 个 GPL module, 
否则 就 是 non-GPL module。 内 核 判 断 一 个 模块 是 否 GPL 兼容 ， 要 使 用 到 本 章 后 面 的 “模块 
的 信息 ”部 分 中 的 内 容 。 


对 于 一 个 non-GPL module 而 言 ， 它 不 能 使 用 内 核 导出 的 属于 GPL. ONLY 的 那些 符号 ， 所 
以 即使 要 查找 的 符号 匹配 上 一 个 属于 GPL ONLY 的 符号 , 也 不 能 认为 查找 成 功 。 但 是 如 果 
要 查找 的 符号 匹配 上 一 个 属于 WILL BE GPL ONLY 的 符号 ， 因 为 这 个 导出 的 符号 “将 要 
成 为 GPL_ONLY ”， 所 以 即使 现在 还 不 是 GPL ONLY， 查 找 姑且 算是 成 功 的 ， 不 过 即便 如 
此 ， 内 核对 模块 将 来 对 该 符号 的 成 功 使 用 没有 保障 ， 所 以 应 该 给 出 一 个 警告 信息 。 对 于 一 
个 GPL module 而 言 ， 一 切 好 说 ， 可 以 使 用 内 核 导 出 的 所 有 符号 。 


函数 如 果 成 功 查找 到 符号 ， 利 用 传 进来 的 data 指针 将 符号 相关 信息 传 给 上 层 调用 的 函数 。 


ZIE, find symbol 的 第 一 部 分 ， 即 在 内 核 导出 的 符号 表 中 查找 指定 的 符号 已 经 结束 。 如 果 
指定 的 符号 没有 出 现在 内 核 导 出 的 符号 表 中 ， 那 么 将 进入 find. symbol 函数 的 第 二 部 分 。 


下 和 面 开始 介绍 find symbol 的 第 二 部 分 ， 在 系统 已 经 加 载 的 模块 导出 的 符号 表 中 查找 符号 。 
内 核 为 达成 此 目的 ， 需 要 在 加 载 一 个 内 核 模块 时 完成 下 面 两 件 事 。 


第 一 ， 模 块 成 功 加 载 进 系 统 之 后 ， 需 要 将 表示 该 模块 的 struct module 类 型 变量 mod 加 入 到 
modules 中 ， 后 者 是 一 个 全 局 的 链表 变量 ， 用 来 记录 系统 中 所 有 已 加 载 的 模块 。 


<kernel/module.c> 


static LIST_HEAD(modules); | 
list add rcu(&mod-^list, &modules); 
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第 二 ， 模 块 导出 的 符号 信息 记录 在 mod 的 相关 成 员 变量 中 ， 这 个 过 程 的 详细 描述 参见 本 章 
前 面 的 “模块 导出 的 符号 ”部 分 。 


each symbol 用 来 在 系统 所 有 已 加 载 的 模块 导出 的 符号 中 查找 某 一 指定 符号 , 其 核心 代码 片 
EP: 
if(each symbol in section(arr, ARRAY SIZE(arr), NULL, fn, data)) 
return true; 
list for each entry rcu(mod, &modules, list) { 
struct symsearch arr[] = | 
{ mod->syms, mod->syms + mod-»num syms, mod-»crcs, 
NOT GPL. ONLY, false }, 
{ mod->gpl_syms, mod->gpl_ syms + mod--num gpl syms, 
mod--gpl cres, 
GPL ONLY, false }, 
{ mod--gpl future syms, 
mod->gpl future syms + mod--num gpl future svms, 
mod--gpl future crcs, 
WILL BE GPL ONLY, false }, 
h 


if(each symbol in section(arr, ARRAY SIZE(arr), mod, fn, data)) 
return true; 
} 
相对 于 find symbol 的 第 一 部 分 (在 内 核 导 出 的 符号 表 中 查找 某 一 符号 )， 第 二 部 分 唯一 的 
区 别 在 于 构造 的 ar 数组 函数 在 全 局 链表 modules 中 遍历 所 有 已 加 载 的 内 核 模块 ， 对 其 中 
的 每 一 模块 都 构造 一 个 新 的 arr 数组 ， 然 后 在 其 中 查找 特定 的 符号 。 


O 对 “未 解决 的 引用 ”符号 (unresolved symbol ) 的 处 理 


前 文中 已 多 次 提 到 内 核 模 块 ELF 文件 中 的 “未 解决 的 引用 ”符号 ,所谓 的 “未 解决 的 引用 ” 
符号 , 就 是 模块 的 编译 工具 链 在 对 模块 进行 链接 生成 最 终 的 .ko 文件 时 ， 对 于 模块 中 调用 的 
一 些 函 数 ， 最 简单 的 比如 printk 函数 ， 链 接 工具 无 法 在 该 模块 的 所 有 目标 文件 中 找到 这 个 
国 数 的 具体 指令 码 〈 因 为 这 个 函数 是 在 Linux 的 内 核 源 代码 中 实现 的 ， 其 指令 码 存 在 于 编 
译 内 核 生 成 的 目标 文件 中 , 模块 的 链接 工具 显然 不 会 也 不 应 该 去 查找 内 核 的 目标 文件 ),， 所 
以 就 会 将 这 个 符号 标记 为 “未 解决 的 引用 ”, 对 它 的 处 理 将 一 直 延 续 到 内 核 模块 被 加 载 时 (处 
理 的 核心 是 在 内 核 或 者 是 其 他 内 核 模块 导出 的 符号 中 找到 这 个 “未 解决 的 引用 ”符号 8， 继 
而 找到 该 符号 所 在 的 内 存 地 址 ， 从 而 最 终 形成 正确 的 函数 调用 )。 


8 读者 可 在 Linux 环境 下 通过 nm 命令 来 查看 -个 模块 中 出 现 的 所 有 “未 解决 的 引用 ”符号 ， 比 如 ; 
dennis@AMDLinuxFGL:~$ nm demodev.ko 
该 命令 的 输出 中 ， 所 有 前 面 带 一 “U” 标志 的 符号 均 为 “未 解决 的 引用 ”符号 。 
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Linux 内 核 中 ， 一 个 名 为 simplify_symbols 的 函数 用 来 实现 这 一 功能 ， 这 是 个 很 有 意思 的 函 
数 ， 我 们 不 妨 仔细 看 一 下 和 它 的 代码 。 


<kernel/module.c> 
/* Change all symbols so that st_value encodes the pointer directly. */ 
static int simplify_symbols(struct module *mod, const struct load_info *info) 
{ 
Elf Shdr *symsec = &info->sechdrs[info->index.sym]; 
Elf Sym *sym = (void *)symsec->sh_addr; 
unsigned long secbase; 
unsigned int i; 
int ret = 0; 
const struct kernel symbol *ksym; 


for (i= l; i < symsec-sh size / sizeof{Elf Sym); i++) { 


const char *name = info->strtab + sym[i].st name; 


switch (svm[i].st shndx) { 
case SHN COMMON: 
/* We compiled with -fno-common. These are not 
supposed to happen. */ 
DEBUGP("Common symbol: %s\n", name); 
printk("965s: please compile with -fno-commonin", 
mod->name); 
ret = -ENOEXEC; 
break; 


case SHN_ABS: 
/* Don't need to do anything */ 
DEBUGP("Absolute symbol: 0x%081x\n", 
(long)sym[i].st value); 
break; 


case SHN UNDEF: 
ksym = resolve symbol wait(mod, info, name); 
/* Okifresolved. */ 
if (ksym && !IS. ERR(ksym)) { 
sym[i].st value = ksym->value; 
break; 


/* Ok if weak. */ 
if (‘ksym && ELF ST BIND(sym[i].st info) — STB WEAK) 
break; 


printk(KERN WARNING "%s Unknown symbol 95s (err *oli)n", 
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mod->name, name, PTR_ERR(ksym)); 
ret = PTR_ERR(ksym) ?: -ENOENT, 
break; 


default: 
/* Divert to percpu allocation if a percpu var. */ 
if (sym[i].st shndx 一 info->index.pcpu) 
secbase = (unsigned long)mod percpu(mod); 
else 
secbase = info-»sechdrs[sym[i].st shndx].sh addr; 
sym[i].st value += secbase; 
break; 


return ret; 
i 


简 言 之 , 在 加 载 模块 的 过 程 中 , simplify symbols 函数 用 来 为 当前 正在 加 载 的 模块 中 所 有 ”未 
解决 的 引用 ”符号 产生 正确 的 目标 地 址 。 对 这 段 代码 的 透彻 理解 需要 读者 熟悉 ELF 文件 格 
式 规 范 的 相关 概念 ， 我 们 不 可 能 在 本 书 中 全 面 介绍 ELF 艾 件 格式 ， 但 是 为 了 让 读者 能 理解 
上 面 的 代码 ， 还 是 从 代码 的 角度 出 发 ， 将 其 中 所 涉及 的 一 些 有 关 ELF 文件 的 概念 予以 简单 
介绍 。 


代码 中 的 Elf Sym 定义 的 是 符号 表 中 的 元 素 ， 具 体 定义 如 下 : 


struct Elf Sym { 
Elf32 Word st_name; 
Elf32 Addr st value; 
EIf32 Word st size; 
unsigned char st info; 
unsigned char st other; 
Elf32 Half st shndx; 

hs 


其 中 , st_name 是 符号 名 在 符号 名 称 字符 串 表 中 的 索引 值 , 详 见 本 章 前 面 的 ”字符 串 表 (String 
Table)” 部 分 。st_ value 是 符号 所 在 的 内 存 地 址 。simplify symbols 函数 的 唯一 功能 就 是 在 
加 载 模块 时 重新 生成 正确 的 st_value 值 。st_shndx 是 该 符号 所 在 的 section 在 Section header 
table 中 的 索引 值 。 但 是 该 值 还 有 一 些 特殊 的 定义 。 对 于 符号 表 ， 它 是 ELF 文件 中 的 一 个 
section， 这 个 section 就 是 由 一 系列 struct Elf Sym 型 元 素 所 构成 的 一 个 数组 ， 每 个 元 素 代 
码 一 个 符号 ， 


在 对 符号 表 的 概念 有 了 基本 了 解 之 后 ， 回 过 头 来 看 看 simplify symbols 函数 的 代码 实现 。 
消 数 首先 通过 一 个 for 循环 遍历 符号 表 中 的 所 有 符号 ， 对 于 每 一 个 符号 都 会 根据 该 符号 的 
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st shndx 值 分 情况 进行 处 理 。 前 面 刚 刚 提 到 st. shndx, 通常 情况 下 , 该 值 表示 符号 所 在 section 
的 索引 值 ， 为 方便 自述 ， 我 们 称 这 种 符 叶 为 一 般 符 号 ， 对 于 一 般 符号 来 说 ， 它 的 st value 
在 ELF 文件 中 的 值 是 从 其 所 在 section 起 始 处 算 起 的 一 个 偏 移 量 ,代码 中 在 switch 的 default 
分 冯 下 进行 处 理 ， 先 得 到 符号 所 在 section 的 最 终 内 存 地 址 ， 然 后 加 上 它 在 section 中 的 偏 
移 量 ， 这 样 就 得 到 了 符号 的 最 终 内 存 地址 。 


除了 一 般 符 号 ， 还 有 些 符 号 的 st_shndx 具有 特殊 的 含义 ， 典 型 的 如 SHN ABS 和 
SHN_UNDEF， 前 者 表明 该 符号 具有 绝对 地 址 ,因此 simplify symbols 函数 无 须 对 这 种 情况 
予以 任何 处 理 ， 后 者 表明 该 符号 是 一 “undefined symbol”， 其 实 就 是 我 们 一 直 说 的 “未 解 
决 的 引用 ”符号 。 这 种 情况 下 simplify symbols 函数 会 调用 resolve symbol 函数 来 处 理 该 未 
定义 符号 ， 后 者 会 调用 find symbol 函数 去 查找 该 符号 〈 详 细 的 查找 过 程 见 本 章 前 面 的 
"find symbol 国 数 ”部 分 )， 如 果 找 到 了 ， 就 把 它 在 内 存 中 的 实际 地 址 赋值 给 st value. 


如 此 ， 经 过 simplify symbols 函数 的 调用 之 后 ， 内 核 模块 符号 表 中 的 所 有 符号 就 都 有 了 正 
确 的 st_value 值 ， 也 即 都 有 了 正确 的 内 存 地 址 。 


到 目前 为 止 ， 一 切 关 于 符 写 相关 的 处 理 貌 似 都 很 完美 ， 然 而 情况 真是 如 此 吗 ? 如 果 当 前 正 
在 加 载 的 模块 中 一 个 “未 解决 的 引用 ”符号 是 由 别 的 内 核 模 块 导 出 的 ， 情 况 会 怎样 呢 ? 如 
果 读 者 的 探索 精神 足够 强烈 ， 想 想 那 些 由 内 核 模 块 导 出 的 符号 吧 9。 由 前 面 的 内 容 可 知 ， 
" ksymtab”、“”_ ksymtab_gpl” 和 “ksymtab_gpl future" section 都 被 搬移 到 了 最 终 的 内 
存 地 址 处 ,而且 这 些 地 址 也 被 表示 模块 的 mod 变量 记录 在 案 , 但 是 这 些 section 中 的 内 容 呢 ? 


回头 看 看 图 1-5“ 内 核 模 块 导 出 的 符号 ”， 每 个 “_ ksymtab". "  ksymtab gpl" 和 
^ ksymtab gpl future” section 都 是 由 struct kernel. symbol 类 型 的 元 素 所 构成 的 数组 。 到 目 
前 为 止 ， 如 果 仔 细 考 察 每 个 元 素 的 话 ， 会 发 现 其 中 的 value 成 员 依 然 是 内 核 模块 在 静态 编 
详 时 产生 的 地 址 。 换 句 话说 ， 根 本 不 是 这 些 符号 在 模块 被 加 载 进 系 统 之 后 在 内 存 中 的 实际 
地 址 。 这 显然 不 是 我 们 想 要 的 效果 : 想 想 本 节 前 半 部 分 提 到 的 对 模块 中 “未 解决 的 引用 ” 
符号 的 处 理 ， 如 果 在 别 的 模块 中 找到 的 符号 其 内 存 地 址 只 是 当初 该 模块 在 静态 链接 时 填 入 
的 地 址 ， 那 么 对 该 符号 的 引用 必然 导致 错误 的 内 存 访问 。 这 是 个 很 严重 的 问题 。 而 Linux 
内 核对 这 一 问题 的 处 理 便 引出 了 下 一 部 分 的 内 容 一 重 定位 。 


O 重 定位 【relocation ) 
重 定 位 主要 用 来 解决 静态 链接 时 的 符号 引用 与 动态 加 载 时 实际 符号 地 址 不 一 致 的 问题 ， 上 


节 结 束 部 分 提 到 的 模块 导出 的 符号 地 址 ， 就 是 一 个 典型 的 需要 重 定位 的 例子 。 仔 细 讨 论 重 
定位 的 内 容 不 是 件 简单 的 事情 ， 因 为 重 定 位 的 任务 包含 很 多 方面 的 内 容 ， 尤 其 是 跟 体 系 架 


9 为 什么 只 芙 注 那些 由 内 核 模 块 导 出 的 符号 呢 ? 因为 对 于 肉 楼 导出 的 符号 而 这 ， 所 有 符号 的 实际 链接 地 址 都 会 被 解决 ， 
除非 内 核 锌 设计 成 可 重 定位 的 。 而 内 核 模块 则 不 同 ， 它 本 身 就 是 可 重 定 位 的 。 
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的 技术 细节 并 不 是 件 很 有 价值 的 事情 : 篇 幅 把 握 得 不 够 理想 ， 很 可 能 就 冲淡 了 本 章 关 于 内 
核 模块 加 载 这 一 主线 。 消 耗 大 量 的 篇 幅 和 读者 大 量 的 时 间 ， 所 涉及 的 主题 在 现实 中 却 难 有 
用 武之 地 。 但 是 重 定位 毕竟 是 内 核 加载 过 程 中 一 个 很 重要 的 步骤 ， 仔 细 权 衡 之 下 ， 笔 者 决 
定 采 取 一 个 相对 折 中 的 方案 ， 在 讨论 重 定位 时 就 事 论 事 。 本 节 就 以 上 节 末 尾 提 出 的 问题 来 
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展开 重 定位 的 话题 。 


如 果 模 块 有 用 EXPORT SYMBOL 导出 的 符号 ， 那 么 模块 的 编译 工具 链 会 为 这 个 模块 的 
ELF 文件 生成 一 个 独立 的 特殊 section:“.rel ksymtab", 它 专门 用 于 对 “ ksymtab” section 
的 重 定 位 ， 称 为 relocation section。 这 个 section 是 由 下 面 的 数据 结构 元 素 形成 的 一 个 数组 。 


typedef struct elf32 rel { 


Elf32 Addr r offset; 
Elf32 Word r info; 


} Elf32 Rel; 


先 来 看 看 Linux 源码 中 用 于 内 核 模块 加 载 时 重 定位 的 代码 ; 


<kernel/module.c> 


static int apply_relocations(struct module *mod, const struct load_info *info) 


| 


ee td a es a ie 


unsigned int i; 
int err = 0; 


/* Now do relocations, */ 
for (i = 1; i < info->hdr->e_shnum; i++) { 


unsigned int infosec = info->sechdrs[i].sh_info; 


/* Not a valid relocation section? */ 
if (infosec >= info->hdr->e_shnum) 


continue; 


/* Don't bother with non-allocated sections */ 
if (!(info-^sechdrs[infosec].sh flags & SHF ALLOC)) 
continue; 


if (info->sechdrs[i].sh_type — SHT REL) 
err = apply _relocate(info->sechdrs, info->strtab, 
info->index.sym, i, mod); 
else if (info->sechdrs[i].sh_type == SHT_RELA) 
err = apply_relocate_add(info->sechdrs, info->strtab, 
info->index.sym, i, mod); 
if (err < 0) 
break; 
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return err; 


} 


代码 用 一 个 for 循环 来 遍历 HDR 视图 中 Section header table 中 所 有 的 entty。 对 于 一 个 重 定 
位 的 section， 其 entry 中 的 sh type 的 值 为 SHT REL 或 者 SHT RELA， 分 别 对 应 两 种 不 同 
的 重 定位 方式 ， 我 们 拿 第 一 种 类 型 SHT_REL 来 说 事 。 对 于 sh type = SHT_REL 的 section 
而 言 ， 其 Section header 中 的 sh info 成 员 指明 了 被 重 定位 的 section 在 Section header table 
中 的 索引 值 ， 代 码 中 用 info 变量 来 表示 。 


在 遍历 的 过 程 中 ,如果 发 现 了 一 个 sh type = SHT_REL 的 section, 系统 就 调用 apply. relocate 
销 数 来 执行 重 定 位 ， 后 者 是 个 体系 结构 相关 的 函数 。 总 体 上 ， 该 函数 对 模块 导出 符号 的 重 
定位 原理 是 ， 根 据 重 定 位 元 素 中 的 r_offset LA relocation section header entry 中 的 sh_info 
得 到 需要 修改 的 导出 符号 struct kernel. symbol 中 value 所 在 的 内 存 地 址 : 


Elf32_Rel *rel = (void *)entry[i].sh_addr; entry[i 对 应 当前 正在 处 理 的 relocation section 
int ksymtabidx = entry[i].sh_info; 

EIf32 Shdr * ksymtabsec = &entry[ksymtabidx]; 

unsigned long location = ksymtabsec->sh_addr + rel->r offset; 


然后 根据 重 定位 元 素 中 的 r_info 获得 需要 定位 的 符号 在 符号 表 中 的 偏 移 量 : 
offset = ELF32_R_SYM(rel->r_info); 


因为 符号 表 section 的 基地 址 很 容易 获得 ,于 是 就 可 以 获得 需要 重 定位 的 符号 在 符号 表 中 对 
应 的 Elf32_Sym 型 元 素 ; 


sym = ((Elf32_Sym *)symsec->sh addr) + offset: //symsec-»sh addr 为 符号 表 section 基地 址 
所 以 ， 最 终 导出 符号 的 地 址 被 修改 。 


这 一 过 程 简单 地 说 ， 就 是 根据 导出 符号 所 在 section 的 relocation section， 结 合 导 出 符号 表 
section， 修 改 导 出 符号 的 地 址 为 在 内 存 中 最 终 的 地 址 值 。 如 此 ， 内 核 模 块 导出 符号 的 地 址 
在 系统 执行 完 重 定 位 之 后 被 更 新 为 正确 的 值 。 


O 模块 参数 
内 核 模块 在 用 insmod 命令 加 载 时 ， 可 以 通过 诸如 以 下 的 命令 向 模块 传递 一 些 参数 ， 
insmod demodev.ko dolphin=10 bobcat=5 


其 中 dolphin=10 和 bobcat=5 就 是 向 模块 传递 的 参数 ，dolphin 和 bobcat 是 参数 名 ，10 和 5 
是 具体 的 参数 值 。 当 然 为 了 能 正确 接收 外 部 的 参数 ， 内 核 模块 本 身 在 源 代码 中 必须 用 
module param 宏 声 明 模块 可 以 接收 的 参数 。 在 上 面 的 例子 中 ， 模 块 应 该 使 用 诸如 
module_param(dolphin, int, 0) 来 声明 一 个 模块 参数 ， 例 如 下 面 的 代码 片段 ; 
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<demodev.c> 
#include <linux/module.h> 
&include <linux/kernel.h> 


int dolphin; 

int bobcat; 

module param(dolphin, int, 0); 
module param(bobcat, int, 0); 


static int demodev init(void) 

{ 
printk("dolphin-*od,bobcat-*5d'n", dolphin, bobcat); 
return 0); 


} 


static void demodev exit(void) 


{ 
printk("+demodev_exit!\n"); 
} 
module_init(demodev_init); 
module exit(demodev exit); 


从 本 章 稍 后 的 讨论 中 可 以 得 知 ， 内 核 模 块 加 载 器 对 模块 参数 的 构造 (初始 化 ) 过程 发 生 在 


对 模块 初始 化 函数 demodev_init 的 调用 之 前 ， 所 以 在 demodev init 函数 被 调用 时 ， 已 经 可 
以 得 到 从 命令 行 传 过 来 的 实际 参数 。 


Linux 源码 中 module param 宏 相 关 的 完整 定义 如 下 : 


/* Default value instead of permissions? */ \ 

static int param perm check ##name attribute ((unused))= ^ 

BUILD BUG ON ZEROX((perm) < 0 || (perm) > 0777 || (perm) & 2)) \ 

+ BUILD BUG ON ZERO(sizeof(""prefix) > MAX PARAM PREFIX LEN); \ 


static const char param_str_##name[] = prefix #name; i 
static struct kernel param — moduleparam const param ##name\ 
used A 


. attribute — ((unused, section ("^ param"Jaligned(sizeof(void *)))) \ 
= param str ##name, ops, perm, isbool ? KPARAM ISBOOL: 0, \ 
farg)). 


#define module param cb(name, ops, arg, perm) \ 
__module_param_cal(MODULE_ PARAM PREFIX, \ 
name, Ops, arg, same type((arg), bool *), perm) 


#define MODULE_PARM_TYPE(name, type) A 
. MODULE INFO(parmtype, name##type, #name ":" type) 
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#define module_param_named(name, value, type, perm) | 
param check fHtype(name, &(value)); \ 
module param cb(name, &param ops ##type, &value, perm): \ 
. MODULE PARM_TYPE(name, #type) 


#define module_param(name, type, perm) A 
module param named(name, name, type, perm) 


基本 上 ， 上 述 的 宏 系 列 会 在 一 个 名 为 “param” 的 section10 中 定义 一 些 变 量 。 这 上段 宏 的 定 
义 细 究 起 来 可 能 稍 嫌 临 涩 。 这 里 不 妨 以 本 节 开 始 的 例子 来 展开 该 宏 〔 除 去 一 些 跟 调 试 相 关 


的 微 末 细 节 )， 以 便 使 读者 对 module param 宏 有 一 具体 的 印象 ，module_param(dolphin, int, 
0) 展 开 后 如 下 : 


_check_int(dolphin, &( dolphin)); 


static int param perm check dolphin ^ attribute ((unused)) = A 
static const char param str dolphin[] =" dolphin "; \ 
static struct kernel param  moduleparam const ^ param dolphin | 
| used \ 

__attribute_ ((unused, section ("__ param"),aligned(sizeof(void *)))) \ 
—1. param str dolphin, &param ops int, 0, 0, \ 


{ &dolphin } } 


可 上 module param(dolphin, int, 0)#£ " param" section 中 定义 了 一 个 类 型 为 struct 
kernel param 的 静态 常量 。struct kernel param 的 定义 如 下 : 


<include/linux/moduleparam.h> 


-=r rr epee ee ee eee eee — — — ee 


struct kernel_param { 


AID. 


const char *name; 
const struct kernel param ops *ops; 
ul6 perm; 
ul6 flags; 
union 1 
void *arg; 
const struct kparam string *str; 
const struct kparam array *arr; 


i 


其 中 name 为 参数 名 , perm 为 对 sysfs 文件 系统 中 模块 参数 的 访问 许可 , 定义 在 结构 体 struct 
kernel param ops 对 象 ops FAJR REAS (set 和 get) 用 来 在 模块 mod 的 args 成 员 和 模块 


10 如 同 模块 导出 的 符号 所 在 的 section 一 样 ， 模 块 参数 所 在 的 section 也 是 -- 个 optional 的 section: 如 果 模 块 没有 用 
module param 相关 宏 声 明 忻 何 参 数 变量 ， 那 么 最 终 的 ELF 文件 将 不 会 生成 对 应 的 section. 
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的 参数 section (A) WA, BAW union 为 指向 参数 的 指针 。 


. used 和 unused 主要 用 来 避免 编译 器 产生 警告 信息 ， 因 为 此 处 声明 的 ”param dolphin 变 
量 在 模块 源码 的 其 他 部 分 并 不 会 被 使 用 。 


param check int 宏 用 来 检测 变量 dolphin 在 module param 宏 之 前 是 否定 义 ， 因 为 struct 
kernel param 中 的 union 联合 体 只 是 用 来 放置 模块 使 用 的 参数 所 在 地 址 , 如 果 之 前 该 参数 没 
有 定义 ， 就 不 可 能 生成 &dolphin 的 值 。 所 以 我 们 的 内 核 模块 示例 源 代 码 demodev.c 在 用 
module_param 声明 模块 参数 之 前 ， 要 首先 定义 出 这 些 参数 。 


int dolphin; // 首先 定义 
module param(dolphin, int, 0); /然后 再 声明 模块 参数 


如 果 在 设备 驱动 程序 中 访 了 先 定 义 参 数 变量 dolphin， 只 用 module param(dolphin, int, 0) 来 
声明 模块 参数 ， 将 会 得 到 如 下 编译 错误 : 


root(@AMDLinuxFGL.-/home/dennis/Linux/book/chap01# make 
make -C /lib/modules/2.6.39/build M=/home/dennis/Linux/book/chap0] modules 
make([ I]: Entering directory "home/dennis/Linux/kernel/linux-2.6. 39" 

CCÍ[M]  /home/dennis/Linux/book/chapOl/demodev.o 
/home/dennis/Linux/book/chap0 l/demodev.c: In function ' check dolphin': 
/home/dennis/Linux/book/chap0 1/demodev.c:5: error: 'dolphin' undeclared (first use in this function) 
/home/dennis/Linux/book/chapÜ L'demodev.c:5: error: (Each undeclared identifier is reported only 
once 
/home/dennis/Linux/book/chap01/demodev.c:5: error: for each function it appears in.) 
/home/dennis/Linux/book/chap0 [/demodev.c: At top level: 
/home/dennis/Linux/book/chap0 1/demodev.c:5: error: 'dolphin' undeclared here (not in a function) 
/home/dennis/Linux/book/chap0l/demodev.c:5: warning: type defaults to 'int' in declaration of ‘type 
name’ 
make[2]: *** [/home/dennis/Linux/book/chap01/demodev.o] Error 1 
make[1]: *** f module /home/dennis/Linux/book/chap01] Error 2 
make[1]: Leaving directory ‘/home/dennis/Linux/kernel/linux-2.6.39' 
make: *** [default] Error 2 


在 上 面 的 宏 展 开 的 实例 中 ， 可 以 看 到 指向 参数 的 指针 值 被 设 定 为 “{ &dolphin }”， 在 模块 
静态 链接 期 间 ，&dolphin 指令 不 可 能 生成 其 最 终 的 运行 期 地 址 ， 因 此 模块 参数 所 在 的 
". param" section 需要 有 一 个 对 应 的 relocation section “.rel_ param”， 用 来 完成 对 参数 指 
针 的 重 定位 ， 这 样 才能 把 命令 行 中 的 参数 值 正确 复制 到 模块 的 “ ”param”section P. 


除了 module param 之 外 ，Linux 系统 下 还 有 另外 两 个 宏 module param array 和 
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module_param_string， 分 唱 用 来 设 定数 组 型 和 字符 串 型 参数 ， 本 书 不 冉 赞 述 。 


下 面 讨 论 “insmod demodev.ko dolphin-10 bobcat=5” 中 携带 的 参数 值 如 何 为 模块 所 用 ， 不 
看 代码 也 应 该 可 以 猜想 出 命令 行 中 的 参数 值 应 该 会 被 复制 到 模块 的 参数 中 ， 这 样 模块 在 开 
始 使 用 参数 dolphin 之 前 ， 其 值 已 经 被 insmod 命令 行 中 的 实际 值 所 改写 。 图 1-7 Bay i 
令 行 参数 传递 到 模块 的 “ param”section 的 全 过 程 : 





Q 事件 发 生 的 先后 顺序 


图 1-7 内核 模 块 参数 传递 过 程 示意 图 


在 实际 的 内 核 源 代码 中 ，sys_init_ module 函数 的 最 后 一 个 参数 const char — user *uargs 清楚 
地 表明 这 是 由 用 户 空间 传递 过 来 的 放置 模块 参数 的 内 存 地 址 , 在 insmod 一 个 模块 时 所 携带 
的 参数 将 以 字符 串 的 形式 向 内 核 空 间 传递 。 然 后 在 load. module 函数 中 ， 通 过 strndup_user 
的 调用 将 用 户 空间 的 模块 参数 复制 到 内 核 空间 。 


args = stmdup user(uargs, -0UL >> 1); 
strndup user 函数 内 部 会 调用 kmalloc 为 在 内 核 空间 保存 模块 参数 字符 串 分 配 一 段 内 存 区 
域 ， 然 后 通过 copy from user 将 模块 参数 从 用 户 空间 复制 到 内 核 空间 。 


IE, E HDR 视图 的 section 被 搬移 到 CORE 和 INIT section 之 后 ，load module 通过 下 面 
的 section objs 函数 调用 取得 “ param”section 在 内 存 空 间 的 最 终 地 址 ， 并 记录 在 struct 
module 的 struct kernel param *kp 成 员 变量 中 。 
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mod->kp = section_objs(hdr, sechdrs, secstrings, "__ param", sizeof(*mod->kp), &mod->num_kp); 
mod->num_kp Jj “ param" section struct kernel param 对 象 的 个 数 。 此 后 mod->args € 
数 也 将 指向 内 核 空 间 中 保留 参数 字符 串 的 内 存 区 域 。 


最 后 调用 parse args 函数 将 mod->args 中 的 参数 值 复制 到 “ param" section 中 对 应 的 参数 。 


parse_args(mod->name, mod->args, mod->kp, mod->num_kp, NULL), 


parse args 国 数 的 主要 流程 是 ， 针 对 命令 行 中 出 现 的 每 一 个 参数 ， 用 其 参数 名 与 ″ param” 
section 中 出 现 的 每 一 个 struct kernel. param X1 $& HY name 成 员 进行 匹配 ， 如 果 匹 配 成 功 即 认 
为 找到 了 对 应 的 参数 , 然后 通过 struct kernel. param 中 的 set 函数 指针 将 参数 值 复制 到 struct 
kernel param 中 arg. str 或 者 arr 所 指向 的 地 址 空间 。 对 于 本 节 开 始 的 例子 ，set 指针 指向 
param set int 函数 ， 后 者 在 Linux 内 核 源码 中 由 STANDARD PARAM DEF % 
(kernel/params.c) 负责 定义 ， 展 开 后 的 param set int 如 下 : 

int param set int(const char *val, struct kernel param *kp) 

( 


long I; 
int ret; 


if (!val) return -EINVAL; 
ret = strict strtol (val, 0, &l); 
if (ret == -EINVAL || ((inty != IY) 
return -EINVAL; 
*((int *)kp->arg) ^l; /将 命令 行 中 的 参数 值 复制 到 “_param” section 的 kp 中 
return 0; 


} 


param set int 函数 调用 之 后 ， 模 块 “ — param" section "P. “dolphin” # “bobcat” ART RE) 
struct kernel param 对 象 中 的 arg 成 员 将 被 赋值 为 10 和 5， 也 就 是 在 insmod 命令 行 中 传 入 
的 模块 实际 参数 值 。 这 之 后 ， 内 核 模块 将 可 以 通过 自身 的 dolphin 和 bobcat 变量 引用 到 这 
些 传 入 的 参数 值 。 


如 果 将 这 一 过 程 简单 总 结 一 下 的 话 ， 应 该 是 在 把 命令 行 的 参数 值 复制 到 模块 的 参数 这 个 过 
程 中 , module_param 宏 所 定义 的 ” param” section 起 了 桥梁 的 作用 , 通过 “param "section， 
内 核 可 以 找到 模块 中 定义 的 参数 所 在 的 内 存 地 址 ， 继 而 可 以 用 命令 行 中 的 参数 值 改 写 之 。 
因为 内 核 模块 加 载 器 在 解析 命令 行 参 数 时 ， 对 命令 行 中 参数 的 构成 格式 有 严格 的 要 求 ， 在 
参数 名 与 参数 值 之 间 只 能 用 “=”， 且 不 能 有 空格 ， 如 果 把 前 面 的 命令 行 写 成 如 下 形式 
(“dolphin=” 和 “10” 之 间 有 个 空格 ); 


insmod demodev.ko dolphin= 10 bobcat=5 


那么 将 会 得 到 如 下 信息 : 
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insmod: error inserting 'demodev.ko': -1 Unknown symbol in module 
dmesg 中 针对 这 个 错误 的 输出 如 下 : 
[262282.558333] demodev: Unknown parameter ‘dolphin' 


至 此 ， 我 们 已 经 理解 了 内 核 模 块 的 参数 机 制 ， 包 括 模块 源码 中 如 何 声明 参数 ， 内 核 模块 加 
载 时 如 何 把 命令 行 中 的 参数 复制 到 模块 中 等 。 


OQ 模块 间 的 依赖 关系 


实际 运行 的 系统 中 并 不 是 只 加 载 一 个 模块 , 模块 可 以 随时 添加 进 系 统 , 也 可 以 随时 被 凶 载 。 
这 些 内 核 模块 之 间 并 不 是 完全 相对 独立 的 ， 比 如 当 一 个 模块 引用 到 男 一 个 模块 中 导出 的 符 
号 时 ， 这 两 个 模块 间 就 建立 了 依赖 关系 。 因 此 依赖 关系 只 存在 于 模块 与 模块 之 间 ， 模 块 与 
内 核 之 间 不 构成 依赖 关系 ， 因 为 在 模块 生存 期 间 我 们 不 可 能 去 和 卸载 内 核 ， 当 然 内 核 也 不 可 
能 引用 到 模块 导出 的 符号 。 内 核 必 须 能 跟踪 模块 间 的 这 种 依赖 关系 ， 只 有 这 样 ， 如 果 由 于 
存在 依赖 关系 卸载 一 个 模块 有 可 能 影响 到 系统 的 稳定 性 ， 内 核 才 可 能 采取 必要 的 措施 防止 
这 种 情况 发 生 。 


内 核 用 struct module 数据 结构 中 定义 的 如 下 成 员 变量 来 跟踪 模块 间 的 这 种 依赖 关系 : 


«include/linux/module.h» 


#ifdef CONFIG MODULE UNLOAD 
/* What modules depend on me? */ 
struct list head source list; 
/* What modules do I depend on? */ 
struct list head target list; 


#endif 


其 中 的 struct list head source list 和 struct list head target list 用 来 构建 有 依赖 关系 模块 的 链 
表 ， 对 该 链表 的 使 用 要 结合 数据 结构 struct module_use: 


<include/linux/module.h> 


ag a 


struct module use { 
struct list head source list; 
struct list head target list; 
struct module *source, *target; 


h 
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用 CONFIG MODULE UNLOAD 宏 的 系统 而 言 ， 因 为 模块 被 禁止 卸载 ， 因 此 内 核 无 须 对 
依赖 关系 做 出 处 理 。 


模块 的 依赖 关系 的 建立 最 早 发 生 在 当前 模块 对 象 mod 被 加 载 时 ， 模 块 加 载 函 数 调用 
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resolve symbol 函数 来 解决 其 中 一 些 “ 末 解决 的 引用 ”符号 。 如 果 成 功 地 在 其 他 模块 导出 的 
符号 中 找到 了 指定 的 符号 ， 那 么 resolve symbol 国 数 会 将 导出 这 一 “未 解决 的 引用 ”符号 
的 模块 记录 在 一 个 变量 struct module *owner 中 ， 然 后 调用 ref module(mod, ownen) 在 模块 
mod 和 owner 之 间 建 立 依赖 关系 。ref module 函数 在 做 一 些 必要 的 安全 性 检查 之 后 调用 
add module usage(mod, owner) 在 mod 和 owner 模块 间 建 立 依赖 关系 , add module usage Pf 
数 的 定义 如 下 : 

<kernel/module.c> 

. static int add_module_usage(struct module *a, struct module*b) — 
{ 


struct module use *use; 


DEBUGP("Allocating new usage for %s.\n", a->name); 

use — kmalloc(sizeof(*use), GFP ATOMIC); 

if (fuse) { 
printk(KERN_WARNING "26s: out of memory loading\n", a->name), 
return -ENOMEM; 

} 


use->source = a; 
use->target = b; 
list_add(&use->source_list, &b->source_list); 
list_add(&use->target_list, &a->target_list); 
return 0; 

} 


AR E SC Val FY kmalloc 分 配 一 struct module use 型 内 存 空间 use, AH use 中 的 source 指 
癌 mod 模块 ，target 指向 owner 模块 ， 同 时 将 use 的 target_list 加 入 mod 中 的 target list 指 
问 的 双向 链表 ， 将 use 的 source list 加 入 owner 中 的 source list 指向 的 双向 链表 。 图 1-8 展 
示 了 通过 struct module use 对 象 在 三 个 模块 间 建立 依赖 关系 的 技术 细节 ， 


mod_A* 





[ F^ 44— p- target list 


4p. source list 


图 1-8 mod A 和 mod B 模块 依赖 于 owner 模块 
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图 1-8 中 ， 模 块 mod_A 和 mod B 均 依 赖 于 模块 owner, mod_A 和 mod_B 之 间 则 没有 依赖 
AKA. owner 模块 先 加 入 系统 ， 它 导出 一 个 函数 为 模块 mod A 和 mod B 所 使 用 。 图 中 显 
示 mod A 先 于 mod B 加 入 系统 , 在 mod. A 加 入 系统 时 , 模块 加 载 器 创建 了 use A 对 象 在 
mod A 和 owner 间 建 立 依赖 关系 。 和 随后 mod B 加 入 了 系统 ， 因 为 它 和 owner 模块 间 存 在 
依赖 关系 , 加 载 器 同样 创建 了 use BHSE mod B 和 owner 间 建 立 关 联 。 从 图 中 可 以 看 到 ， 
use A Xf BP AY source list 成 员 已 不 再 指向 owner->source list， 而 是 指向 了 
use_B->source_list， 后 者 则 和 owner->source list 建立 了 直接 的 链接 关系 。 


如 此 ，mod A 和 mod B 模块 可 以 通过 遍历 其 target list 成 员 知 道 所 依赖 的 所 有 模块 ， 而 
owner 模块 则 可 以 通过 遍历 其 source. list 成 员 知 道 所 有 依赖 于 自己 的 模块 。 


SM ASCP LI ERN. 系统 必须 确保 没有 其 他 模块 依赖 于 该 模块 , 根据 上 面 的 讨论 ， 
只 要 模块 结构 中 的 source list 是 一 空 链表 ， 就 表明 没有 其 他 模块 依赖 于 它 。 相 关 民 码 在 模 
块 卸 载 部 分 讨论 。 


模块 的 版 本 控制 


版 本 控制 主要 用 来 解决 内 核 模块 和 内 核 之 间 的 接口 一 致 性 问题 。 所 谓 内 核 模 块 和 内 核 之 间 
的 接口 ， 简 单 地 说 是 指 由 内 核 导 出 并 被 内 核 模块 调用 的 那些 符号 。 产 生 这 种 问题 的 根源 在 
于 内 核 模块 和 内 核 作 为 独立 实体 各 自分 开 编 译 。 想 象 一 下 ， 一 个 在 Linux 2.6.18 内 核 源码 
树 基础 上 编译 出 来 的 内 核 模块 能 否 成 功 加 载 到 内 核 版 本 号 为 2.6.35 的 Linux 系统 中 ?如 果 
模块 使 用 的 一 个 接口 在 2.6.35 版 本 中 已 被 改变 或 者 废弃 ， 那 么 前 者 将 会 因为 无 法 找到 一 个 
未 经 定义 的 符号 而 导致 加 载 失败 ， 后 者 虽然 有 可 能 加 载 成 功 ， 但 因为 使 用 到 了 一 个 内 核 已 
经 废弃 的 接口 而 需 承 担 相 应 的 风险 。 


因此 ， 内 核 和 模块 之 间 必 须 协 商 出 一 种 机 制 确保 上 述 问 题 不 会 出 现 。Linux 系统 对 此 的 解 
” 决 方案 是 使 用 接口 的 校 验 和 ， 也 叫 接口 CRC 校 验 码 。 这 种 方法 的 基本 思想 非常 简单 ， 根 据 
函数 的 参数 生成 一 个 大 小 为 4 字 节 的 CRC 校 验 码 ， 当 双方 校 验 码 相等 时 视 为 相同 接口 ， 否 
则 为 不 同 接口 。 


为 了 确保 这 种 机 制 能 够 正常 工作 ， 内 核 必须 首先 启用 CONFIG_MODVERSIONS 这 个 宏 ， 
在 此 基础 上 内 核 模块 在 编译 时 也 必须 启用 CONFIG_MODVERSIONS， 和 否则 模块 将 会 因为 
出 现 无 法 解决 的 未 定义 符号 错误 导致 加 载 失 败 。 显 然 这 是 个 需要 双方 共同 协作 才能 解决 的 
问题 。 如 果 内 核 编 译 时 没有 启用 CONFIG MODVERSIONS， 那 么 系统 将 不 会 启用 本 节 所 
说 的 方案 ， 即 使 被 加 载 的 模块 是 在 另 一 个 启用 CONFIG_MODVERSIONS 的 内 核 源码 树 的 
基础 上 编译 出 来 的 。 


下 面 首 先 从 内 核 的 角度 来 看 看 CONFIG MODVERSIONS 宏 对 内 核 导 出 符号 产生 的 影响 。 
在 前 面 “EXPORT SYMBOL 的 内 核实 现 ” 一 节 中 我 们 看 到 了 内 核 用 于 导出 符号 的 
EXPORT SYMBOL 相关 宏 的 定义 ， 其 中 出 现 了 一 个 _CRC SYMBOL 宏 ， 如 果 在 内 核 编 
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译 时 启用 了 CONFIG MODVERSIONS ， 即 对 内 核 启 用 了 版 本 控制 特性 ， 那 么 
__CRC_SYMBOL 的 定义 为 : 


#define CRC SYMBOL(sym, sec) y 
extern void *__cerc_##sym attribute ((weak)); A 
static const unsigned long — kerctab_## sym \ 

used \ 


__attribute__((section("___kerctab" sec), unused)) \ 
= (unsigned long) & cre_##sym:; 


如 此 ， 对 于 EXPORT SYMBOL(my exp_functiom) 的 例子 ,将 会 在 原来 的 基础 上 新 增 如 下 的 
定义 : 

extern void * «crc my exp function; 

static const unsigned long — kcrctab my exp. function = (unsigned long) & . crc my exp function; 


. kerctab my exp function 用 来 保存 _crc_ my exp function 变量 地 址 并 将 其 放 在 一 个 名 为 
*  kcrctab" HJ section 中 (对 于 EXPORT SYMBOL GPL 和 EXPORT SYMBOL GPL 
FUTURE， 其 所 在 的 section 的 名 称 分 别 为 “ kcrctab gpl" Al“ — kcrctab gpl future”). 


由 此 可 见 ， 如 果 内 核 编译 时 启用 了 CONFIG MODVERSIONS 宏 ， 那 么 对 于 每 一 个 导出 的 
符号 ， 都 会 生成 一 个 对 应 的 CRC 校 验 码 。 反 之 ， 如果 内 核 编译 时 没有 启用 
CONFIG MODVERSIONS 宏 , 那么 系统 将 不 会 为 导出 的 符号 产生 CRC 校 验 码 .“__kcrctab” 
等 section 存在 的 意义 在 于 当 符 号 查找 时 ， 可 以 通过 该 section 找到 对 应 符号 的 校 验 码 ， 以 
此 来 判断 模块 所 使 用 的 接口 是 否 和 当前 正 运行 的 内 核 提 供 的 接口 相 匹 配 。 


CONFIG MODVERSIONS 宏 对 内 核 的 另 一 个 影响 存在 于 加 载 内 核 模块 的 过 程 中 .前 面 在 “对 
“未 解决 的 引用 ”符号 Cunresolved symbol) 的 处 理 ” 部 分 中 提 到 ， 对 于 模块 中 出 现 的 未 定义 
的 符号 ， 内 核 会 调用 resolve symbol 函数 于 以 解决 ， 在 resolve symbol 图 数 的 内 部 会 调用 
find symbol 来 查找 该 符号 。 如 果 成 功 查找 到 ， 则 函数 接 下 来 会 调用 check version 对 这 种 接 
口 进行 校 验 码 的 验证 。 在 没有 启用 CONFIG MODVERSIONS 的 系统 中 ， 这 个 函数 直接 返回 
1， 因 此 没有 启用 CONFIG MODVERSIONS 的 内 核 不 会 进行 接口 一 致 性 的 检验 。 


接 下 来 看 一 下 CONFIG MODVERSIONS 对 内 核 模 块 的 影响 。 


首先 ， 前 面 提 到 的 CONFIG MODVERSIONS 宏 对 内 核 导 出 符号 的 影响 同样 适用 于 模块 导 
出 的 符号 。 


其 次 ， 启 用 CONFIG_MODVERSIONS 会 导致 模块 的 编译 工具 链 在 模块 最 终 的 ELF 文件 中 : 
产生 一 个 名 为 “ versions ”的 section11， 打 开 模 块 源码 所 在 目录 下 的 .mod.c 文件 ， 会 发 现 


11 ^ versions" section 是 由 scripts/mod/modpost.c 生成 的 ， 为 叙述 简单 起 见 ， 本 书 将 其 统称 为 工具 链 。 
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类 似 如 下 代码 : 


static const struct modversion info wersions[] 
__used 
. Attribute ((section(" versions"))) = { 
{ 0x58334a4a, "module layout"12 }, 
{ 0x6980fe91, "param get int" }, 
{ Oxff964b25, "param set int" }, 
{ Oxb72397d5, "printk" }, 
{ Oxb4390f9a, "mcount" }, 
B 


代码 定义 了 一 个 类 型 为 struct modversion info 的 数组 versions, 放 在 “ versions” section 
中 。struct modversion info 的 定义 如 下 : 


<include/linux/module.h> 
struct modversion_info 


{ 

unsigned long cre; 

char name[MODULE NAME LEN]; 
h 


a 4,2559 VE ARRAY, OST AY A ic oc TERRI T CONFIG MODVERSIONS, M 
模块 最 终 的 ELF 文件 中 会 生成 一 个 “ versions”section， 该 section 会 将 模块 中 的 所 有 “未 
解决 的 引用 ”符号 名 和 对 应 的 校 验 码 放 入 其 间 。 在 前 面 的 那个 .mod.e 的 示例 中 ，printk 作为 
模块 的 一 个 “未 解决 的 引用 ”符号 被 放 在 了 “ versions”section 中 ， 工 具 链 为 其 产生 的 
CRC 校 验 码 为 0xb72397d5。 


在 分 析 完 启用 CONFIG_MODVERSIONS 宏 对 内 核 和 内 核 模块 双方 的 影响 后 ， 再 回 过 头 来 
看 一 看 当 模 块 加 载 时 处 理 “ 未 解决 的 引用 ”符号 时 是 如 何 对 接口 一 致 性 进行 验证 的 。 这 种 
验证 是 通过 在 resolve_symbol 函数 里 调用 check_version 函数 完成 的 ，check version 函数 的 
完整 定义 如 下 : 


<kernel/module.c> 
ftifdef CONFIG_MODVERSIONS 
static int check version(Elf Shdr *sechdrs, 


unsigned int versindex, 


E S e A EE ee ee 


const char *symname, 

struct module *mod, 

const unsigned long *crc, 

const struct module *crc. owner) 


12 2.6.35 及 以 后 版 本 的 内 核 会 为 启用 CONFIG_MODVERSIONS 的 模块 生成 一 个 名 为 “module_ layout" 的 未 定义 符号 ， 
局 用 了 CONFIG MODVERSIONS 的 2.6.35 版 本 内 核 在 加 载 时 会 检查 “module_layout” 符 号 和 对 应 的 CRC 校 验 码 。 
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unsigned int i, num versions; 


struct modversion info *versions; 


/* Exporting module didn't supply cres? OK, we're already tainted. */ 
if (erc) 
return |; 


/* No versions at all? modprobe --force does this, */ 
if (versindex 一 0) 
return try_to_force_load(mod, symname) == 0; 


versions = (void *) sechdrs[versindex].sh_addr; 
num versions = sechdrs[versindex].sh size 


/ sizeof(struct modversion info); 


for (i = 0; i < num versions; i++) { 
if (stremp(versions[i].name, symname) != 0) 
continue; 


if (versions[i].crc — maybe relocated(*crc, crc owner)) 
returm 1; 
DEBUGP("Found checksum %IX vs module %IX\n", 
maybe relocated(*crc, crc. owner), versions[i].crc); 
goto bad version; 


printk(KERN WARNING "%s: no symbol version for %s\n", 
mod->name, symname ); 
return 0; 


bad version: 
printk("%os: disagrees about version of symbol %s\n", 
mod->name, symname); 
return 0); 
} 
#else 
static inline int check_version(Elf_Shdr *sechdrs, 
unsigned int versindex, 
const char *symname, 
struct module *mod, 
const unsigned long *crc, 


const struct module *crc. owner) 


return 1; 
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#endif 


在 定义 了 CONFIG_MODVERSIONS 的 前 提 下 ;check version 用 一 个 for 循环 在 ” — versions" 
section 中 进行 遍历 ， 对 每 一 个 struct modversion info 元 素 和 找到 的 符号 名 symname 进行 匹 
配 ， 如 琳 匹 配 成 功 ， 骨 进行 接口 的 校 验 码 比 较 ， 如 果 校 验 码 相等 ， 说 明 模 块 所 使 用 的 接口 
和 内核 导 出 的 接口 是 一 致 的 ， 否 则 产生 版 本 不 匹配 的 错误 。 


关于 校 验 码 的 计算 13， 内 核 源 码 树 中 提供 了 一 个 产生 CRC 校 验 码 的 工具 genksyms， 它 位 
T Linux 内 核 源 码 的 scripts/genksyms 目录 下 。 内 核 模块 编译 工具 链 通 过 它 来 生成 导出 符号 
的 CRC 校 验 码 。 比 如 下 面 的 demodev.h 文件 ， 其 中 导出 了 一 个 函数 符号 my exp function: 


ii 闻 


EXPORT SYMBOL(my exp function); 
那么 使 用 如 下 命令 就 可 以 看 到 genksyms 为 my exp function 生成 的 CRC 校 验 和 : 


root@AMDLinuxFGL./home/dennis/book# gcc -E demodevh -D GENKSYMS | -D KERNEL . 


| ./genksyms > demodev.crc 
打开 demodev.cre 文件 ， 可 以 看 到 类 似 下 面 的 内 容 : 
. ere my exp function = 0x48a001 Of. | 


genksyms 只 为 由 EXPORT SYMBOL 系列 的 宏 导 出 符号 生成 CRC 校 验 码 。 对 于 内 核 和 内 
核 模 块 而 言 , 它们 在 各 自 编译 链接 阶段 均 独 立 使 用 genksyms 来 为 导出 的 符号 和 那些 “未 解 
决 的 引用 ”符号 生成 校 验 和 。 


1-9 展示 了 接口 校 验 码 在 验证 接口 有 效 性 时 的 一 个 具体 例子 ， 图 中 的 模块 A 使 用 到 了 内 
核 导 出 的 一 个 函数 demofunc， 该 模块 当前 的 .ko 文件 最 初 是 在 内 核 源码 树 的 2.6.18 版 本 上 
编 详 而 成 的 ,现在 要 在 运行 内 核 B. (版 本 号 为 2.6.35) 的 Linux 系统 上 加 载 该 模块 。 现在 的 
问题 是 ， 内核 导 出 的 函数 demofunc 在 从 版 本 2.6.18 到 2.6.35 的 演变 过 程 中 发 生 了 改变 , 新 
版 本 内 核 源码 中 该 函数 原型 较 旧 版 本 多 出 了 一 个 参数 。 如 果 内 核 在 加 载 模块 时 没有 版 本 控 
制 机 制 ， 那 么 在 运行 新 版 本 的 Linux 系统 中 加 载 该 模块 时 会 发 生 什 么 呢 ? 答案 是 结果 不 确 
定 ， 内 核 也 许 会 正常 运行 ， 也 许 会 崩溃 ， 但 无 论 如 何 这 是 个 潜在 的 危险 行为 。 


MAAR A 和 B 在 当初 配置 时 都 启用 了 版 本 控制 机 制 ， 那 么 它们 除了 导出 demofunc 这 个 
符号 外 ， 还 会 分 别 为 这 个 接口 生成 对 应 的 CRC 校 验 码 。 当 图 中 的 模块 A 在 内 核 A 源码 树 
的 基础 上 进行 编译 时 ， 模 块 的 构造 工具 链 也 会 负责 为 模块 中 这 个 “未 解决 的 引用 ”符号 
demofunc 生成 CRC 校 验 码 ， 因 为 模块 编 链 工 具 链 和 内 核 工具 链 使 用 的 CRC 校 验 码 生 成 工 


13 关于 校 验 码 生 成 算法 ， 本 书 不 作 详 细 讨 论 ， 读 者 可 以 简单 认为 ;nc=f 导 出 函数 名 ,函数 的 参数 表 )。 
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具 是 完全 一 样 的 ， 所 以 它们 都 会 获得 针对 demofunc 函数 接口 的 一 个 CRC 校 验 码 ， 图 中 的 
值 为 Oxa206cef4. 


模块 A 






CRC 校 验 和 
4 不 匹配 
内 核 B 





int demofunc(int a): int demofunc (int a, int b); 


图 1-9 新 旧 内 核 导 出 的 接口 CRC 不 匹配 


而 对 于 图 中 的 内 核 B 而 言 ， 虽 然 使 用 了 同样 的 CRC 校 验 码 生 成 工具 ， 但 因为 函数 多 出 了 
一 个 参数 ， 所 以 内 核 B 得 到 的 demofunc 函数 接口 校 验 码 为 0x74522d16。 这 样 ， 当 将 图 中 
的 模块 A 向 内 核 B 加 载 时 ， 会 因为 两 者 的 CRC 校 验 码 不 匹配 而 导致 无 法 加 载 该 模块 ， 从 
而 避免 可 能 造成 内 核 不 稳定 的 危险 行为 。 


基于 上 面 的 讨论 ， 我 们 建议 在 对 内 核 进 行 配置 时 启用 CONFIG MODVERSIONS 选项 ， 这 
样 编译 出 的 内 核 在 模块 加 载 时 就 会 启动 版 本 控制 机 制 。 如 果 模 块 在 一 个 没有 启用 
CONFIG MODVERSIONS 宏 的 内 核 源 码 树 基础 上 进行 编译 链接 ， 模 块 的 构造 工具 将 不 会 
为 模块 中 导出 的 符号 和 那些 “未 解决 的 引用 ”符号 生成 CRC 校 验 码 ， 如 果 将 这 样 的 模块 安 
装 到 一 个 启用 了 CONFIG_MODVERSIONS 的 Linux 系统 中 ， 加 载 该 模块 就 会 在 版 本 控制 
环节 出 现 问题 ， 这 种 情况 下 即使 强行 加 载 也 会 导致 内 核 的 污染 。 


最 后 要 强调 的 是 ， 对 于 CONFIG MODVERSIONS 机 制 ， 模 块 的 编译 工具 链 只 对 导出 的 符 
号 产生 CRC 校 验 码 ， 最 明显 的 , 内 核 在 编译 过 程 中 所 有 导出 的 符号 都 会 被 记录 到 一 个 名 为 
“Module.symvers” 的 文件 中 ， 下 面 是 该 文件 的 一 部 分 ; 


root@AMDLinuxFGL:/home/dennis/Linux/kernel/linux-2.6,39# cat Module.symvers | grep printk 
Üxcó0f75ec _ftrace_vprintk vmlinux EXPORT SYMBOL GPL 

Üx5ebefe4b v4l printk ioctl drivers/media/video/videodev EXPORT SYMBOL 
Oxbdd295f0trace vprintk vmlinux EXPORT SYMBOL GPL 

OxS 0eedeb&printk vmlinux EXPORT SYMBOL 


其 中 每 行 第 二 列 就 是 导出 的 符号 ， 第 一 列 是 该 导出 符号 的 CRC 校 验 码 , 第 三 列 是 导出 该 符 
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号 的 模块 ， 第 四 列 是 导出 符号 的 类 型 。 


如 果 一 个 独立 编译 的 内 核 模块 ， 比 如 demodev.ko， 引 用 到 了 内 核 导 出 的 符号 ， 比 如 printk, 
那么 在 demodevko 的 编译 链接 过 程 中 ， 工 具 链 会 到 内 核 源 码 所 在 的 目录 下 坦 找 
Module.symvers 文件 ， 将 得 到 的 printk 的 CRC 校 验 码 记录 到 demodev.ko HY “versions” 

section 中 ， 换 名 话说， 工具 链 不 会 在 使 用 导出 符号 的 地 方 重新 为 之 生成 一 个 CRC 校 验 码 。 
在 demodev 模块 成 功 编译 后 ， 读 者 可 以 在 其 源码 所 在 的 目录 下 发 现 一 个 名 为 
“demodev.mod.c” 的 文件 ， 在 该 文件 中 可 以 发 现 类 似 下 面 的 内 容 : 


-EELE 一- 


| used 

. attribute ((section(" versions") = { 
{ 0xelc343b8, "module layout" }, 
( Ox5Ü0eedeb8, "printk" }, 
{ 0xb4390f9a, "mcount" }, 

H 


从 中 可 以 看 到 printk 函数 的 校 验 码 和 内 核 源 码 树 中 Module.symvers 中 的 完全 一 样 。 


从 这 里 还 可 以 引申 出 一 个 有 趣 的 问题 , 如 果 有 两 个 模块 A 和 B, A 导出 的 一 个 符号 “a_sym” 
ABH, AA AGB 都 是 各 自 独立 编译 链接 :意味 着 A 导出 的 符号 及 其 CRC 校 验 码 将 
WE A 所 在 目录 的 Module.symvers 文件 中 ， 这 样 在 编译 链接 B 模块 时 将 会 产生 一 个 
WARNING， 大 意 是 "a_sym" [/home/dennis/Linux/B.ko] undefined!， 即 便 在 B 模块 源码 中 加 
入 extern … a sym 这 样 的 声明 也 无 法 消除 这 个 WARNING, 产 生 该 WARNING 的 原因 是 B 
模块 只 能 找到 Linux 内 核 导 出 符号 所 在 的 Module.symvers 文件 , 而 无 法 找到 A 模块 产生 的 
Module.symvers 文件 ， 所 以 在 模块 编译 阶段 无 法 确定 最 终 在 模块 加 载 时 是 否 能 找到 这 个 
“a sym” 符 号 ， 因 此 只 是 简单 地 给 了 个 WARNING。 从 表象 上 看 ， 这 个 WARNING MAE 
致命 的 ， 因 为 还 有 模块 加 载 器 这 最 后 一 道 防线 ， 正 如 前 面 所 讨论 的 ， 它 会 到 内 核 及 所 有 加 
载 进 系统 的 内 核 模 块 所 导出 的 符号 表 中 查找 “a_sym”, 假如 在 B 模块 加 载 前 A 模块 已 经 被 
加 载 进 系统 ， 那 么 有 理由 相信 模块 加 载 器 是 可 以 帮 B 模块 找到 “a_ sym" FSA, (Beit 
憾 的 是 模块 B 通常 都 不 可 能 被 加 载 成 功 ，dmesg 对 此 给 出 的 提示 信息 是 “B: no symbol 
version for a_sym ”云云 。 所 以 此 时 再 去 查看 B 模块 的 .mod.c 文件 , 在 它 的 versions[] 里 一 定 
不 会 有 “a_sym” 的 身影 ， 因 为 工具 链 根本 得 不 到 它 的 CRC 校 验 码 。 知 道 了 原因 问题 就 好 
解决 了 ， 最 简单 的 ， 把 A 模块 Module.symvers 文件 的 内 容 添 加 到 Linux 内 核 源 码 树 中 的 
Module.symvers 文件 中 ， 这 样 就 可 以 消除 WARNING 而 且 B 模块 也 可 以 成 功 加 载 。 如 果 此 
时 再 看 B 模块 的 .mod.c 文件 ， 就 会 发 现 “a _ sym” 已 经 出 现在 versions[] 中 ， 并 且 modinfo 
显示 B 模块 有 了 个 依赖 关系 depends: 


root(@AMDLinuxF GL:/home/dennis/Linux/book/chap09/framewk/device#madinjo B.ko 
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filename: B.ko 


description: A simple kernel module 
author: dennis chen (à) AMDLinuxFGL 
license: GPL 


srcversion: 7093 EDF7B908CDDS5212F5F1 
depends: A 
vermagic: 2.6.39 SMP mod unload modversions 586 


#2320942 G ( modinfo ) 


模块 的 最 终 ELF 文件 中 都 会 有 一 个 名 为 “.modinfo” 的 section， 这 个 section 以 文本 的 形式 
保留 看 模块 的 一 些 相关 信息 。 在 Linux 环境 下 可 以 用 modinfo 工具 来 查看 一 个 模块 存储 的 
信息 ， 比 如 下 面 modinfo 输出 的 demodev.ko 模块 的 信息 : 


rootl(@A MDLinuxF GL./home/dennis/Linux/book/chap01# modinfo demodev.ko 
filename: | demodev ko 

srcversion: D2FF5058 1 DA6COAF3F6B3EC 

depends: 

vermagic: 2.6.39 SMP mod_unload modversions 686 

parm: dolphin: int 

parm: bobcat: int 


模块 的 源码 中 用 MODULE INFO 宏 来 向 该 section 添加 模块 信息 ，MODULE INFO 宏 的 相 
关 定义 如 下 ; 


<jnclude/linux/module.h> 


m Wo HO ONROND UL HS Gi Rene ee Re Gb db diy WR ee ee ea ee ee eee ee oe 


#ifdef MODULE 
*define — module cat(a,b) mod_##a##b 
#define — module cat(a,b) ^ module cat(a,b) 
#define | MODULE INFO(tag, name, info) 
static const char module cat(name, LINE Y] 
| used 
. attribute  ((section(".modinfo"),unused)) =  stringify(tag) "=" info 
Helse /* IMODULE */ 
#define MODULE _INFO(tag, name, info) 
#endif 
/* Generic info of form tag = “info" */ 
#define MODULE_INFO(tag, info) — MODULE_INFO(tag, tag, info) 


在 MODULE 没有 定义 的 情况 下 ，MODULE INFO 是 个 空 定 义 。 而 对 于 内 核 模 块 而 言 ， 
MODULE INFO 在 “.modinfo section 中 定义 了 一 个 类 似 "tag=info" 的 字符 串 ， 内 核 中 通过 
调用 get modinfo 函数 来 获得 tag 所 在 字符 串 的 值 info。 
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模块 加 载 过 程 中 ， 需 要 获得 “.modinfo”section 中 的 相关 信息 以 便 进一步 处 理 ， 这 些 信息 
包括 ; 


e HY license 


模块 的 license 在 模块 源码 中 以 MODULE LICENSE ZX5| 5. BEI EMA RE 
MODULE INFO: 


#define MODULE LICENSE( license) MODULE_INFOj(license, license) 


内 核 模块 加 载 过 程 中 ， 会 调用 license is gpl compatible 来 确定 模块 的 license 是 否 与 GPL 
RA: 


{ 
return (stremp(license, "GPL") — 0 

|| stremp(license, "GPL v2") = 0 
|| stremp(license, "GPL and additional rights") == 0 
|| stremp(license, "Dual BSD/GPL") = 0 
|| stremp(license, "Dual MIT/GPL") = 0 
| stremp(license, "Dual MPL/GPL") == 0}, 

} 


非 以 上 形式 的 license 被 认为 与 GPL 不 兼容 ， 这 样 的 模块 在 加 载 进 系 统 后 会 导致 内 核 被 污 
i, AHH mod X1 $$ 8I unsigned int taints 成 员 记 录 一 个 模块 是 否 会 污染 内 核 ， 


mod->taints |= (1U << 0); 


这 样 ， 以 后 就 可 以 通过 mod->taints 来 判断 要 加 载 的 模块 是 否 GPL 兼容 。 而 对 于 运行 中 的 
系统 是 否 被 污染 ， 内 核 用 一 个 unsigned long 型 全 局 变量 tainted mask 来 表示 ， 在 系统 因 故 
障 挂 起 时 ，tainted_ mask 会 影响 系统 调试 信息 的 和 输出， 以 告 之 内 核 是 否 已 被 污染 。 


另外 , non-GPL 的 模块 无 法 使 用 内 核 或 其 他 内 核 模 块 用 EXPORT SYMBOL GPL 导出 的 符 
号 ， 在 加 载 这 样 的 模块 时 将 出 现 "Unknown symbol in module" 类 似 的 错误 信息 。 


e ”模块 的 vermagic 


内 核 和 内 核 模 块 的 vermagic 都 是 通过 MODULE INFO 定义 的 一 个 VERMAGIC STRING 
字符 串 ， 后 者 实际 上 是 一 个 生成 字符 串 的 宏 ， 该 宏 会 根据 不 同 的 内 核 配 置信 息 生 成 不 同 的 
字符 串 。 模 块 加 载 过 程 中 会 检查 模块 中 的 vermagic 是 否 和 当前 运行 的 内 核定 义 的 vermagic 
一 致 ， 如 果 不 一 致 加 载 将 失败 ，dmesg 命令 会 发 现 类 似 下 面 的 错误 信息 : 


demodev: version magic ‘2.6.39 SMP mod unload 586' should be '2.6.39 SMP mod unload 
modversions 586' 
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上 面 的 信息 输出 对 应 着 load module 函数 如 下 的 代码 片段 : 


exam ues VE m t ems re e m m ce M cmn MR, RC E vu nme Ree (Rem (pus aa E ems rens (ur xs eir aw, OB oer ces cem em Dems de Um cem ed ens d 


unsigned long len, 
const char — user *uargs) 


modmagic = get modinfo(sechdrs, infoindex, "vermagic"); 
/* This is allowed: modprobe --force will invalidate it. */ 
if (!modmagic) { 

err — try to force load(mod, "bad vermagic"); 

if (err) 

goto free hdr; 

} else if ("same magic(modmagic, vermagic, versindex)) { 

printk(KERN ERR "os: version magic 0s should be '%s"\n", 

mod->name, modmagic, vermagic); 
err = -ENOEXEC; 
goto free hdr; 


) 


该 代码 片段 首先 在 当前 模块 的 *.modinfo”section 中 查找 vermagic 对 应 的 字符 串 modmagic, 
如 果 找 到 则 和 当前 内 核 的 vermagic 字符 串 进行 比较 ， 以 确定 两 者 是 否 匹 配 ， 不 匹配 的 话 模 
块 将 加 载 失 败 。 读 者 可 以 通过 如 下 命令 查看 一 个 模块 的 “.modinfo”section NAF: 


root(@AMDLinuxFGL-/home/dennis/Linux/book/chap01# readelf -p .modinfo demodev.ko 
String dump of section '.modinfo’: 
[ Of  parmtype-bobcat:int 
l4] parmtype-dolphin:int 
40] srcversion-D2FF50581DA6COAF3F6B3EC 
63] depends= 
80] vermagic-2.6.39 SMP mod unload modversions 686 


所 以 对 于 demodev.ko 这 个 模块 而 言 ,“.modinfo "section 中 vermapic 对 应 的 字符 串 就 为 "2.6.39 
SMP mod unload modversions 686"， 打 开 模 块 源码 目录 下 的 demodev.mod.c 文件 , 可 以 看 到 
下 列 信息 : 


MODULE_INFO(vermagic, VERMAGIC_STRING); 


内 核 模 块 中 用 来 产生 vermagic 的 MODULE INFO 是 通过 scripts/mod/modpost.c 文件 自动 生 
成 的 ， 内 核 模块 开发 者 无 须 在 源码 中 显 式 汶 加 这 一 信息 。 
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104422), VERMAGIC STRING 实际 上 是 由 内 核 源 码 树 的 相关 配置 信息 所 组 合 而 成 
-个 字符 串 ， 如 下 所 示 ;: 


«inciude/linux/vermagic.h» 


"Trr-- -rr -Ti rr d -od 7 BE = o a 5B "o0 TYOLOR OX € d o2 FO* OL 


#define VERMAGIC_ STRING \ 
UTS RELEASE " " \ 
MODULE_VERMAGIC_SMP MODULE_VERMAGIC_PREEMPT \ 


MODULE VERMAGIC MODULE UNLOAD MODULE VERMAGIC MODVERSIONS | 
MODULE ARCH VERMAGIC 


FRA Sa VERMAGIC. STRING 所 组 合 的 信息 与 "2.6.39 SMP mod unload modversions 
"这 样 的 具体 字符 串 对 应 起 来 。 因 为 不 同 的 内 核 源码 树 的 配置 信息 不 一 定 相 同 ， 所 以 从 
上 角度 而 言 ，vermagic 也 可 以 看 做 是 模块 版 本 控制 的 一 部 分 。 


3.4 sys_init_module ( 第 二 部 分 ) 


1 module 函数 完成 模块 加 载 几乎 所 有 的 艰苦 工作 之 后 ,重新 返回 到 sys init module, 后 者 
oad module 的 基础 上 所 做 的 事情 就 很 简单 了 ， 主 要 有 : 


调用 模块 的 初始 化 函数 


uct module 类 型 变量 mod 初始 化 ”部 分 中 已 经 提 到 了 mod 中 init 函数 指针 是 如 何 指向 模 
不 码 中 的 初始 化 函数 ， 现 在 由 sys init module 负责 调用 它 ， 相 关 代 码 如 下 : 


<kernel/module.c> 


Zi om oc dE GE Se ch E UNS GR E ee m Skee Li ÉD dm noce es ORE HH RE noon Te BR OR e eRe bm GEO mo HR uA obo do RR G4R sb oc oes NÉS CHE Res Rs em Rs CR es be Emo m ER Res ee ee reru 


sys init module( void — user * umod, unsigned long len, constchar  user*  uargs) 


{ 


if (mod->init != NULL) 
ret = do_one_initcall(mod->init); 
if (ret < 0) { 
/* Init routine failed: abort. Try to protect us from 
buggy refcounters. */ 
mod->state = MODULE STATE GOING; 
synchronize sched(); 
module put(mod); 
blocking notifier call chain(&module notify list, 
MODULE STATE GOING, mod); 
free module(mod); 
wake up(&module wa), 
return ret; 
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从 以 上 代码 可 以 看 出 ,内 核 模 块 可 以 不 提供 模块 初始 化 函数 。 如 果 模 块 提供 了 初始 化 函数 ， 
那么 它 将 在 do_one_initcall 函数 内 部 被 调用 。 如 果 模 块 初始 化 函数 被 成 功 调用 ， 那 么 模块 
就 算是 被 加 载 进 了 系统 ， 因 此 需要 更 新 模块 的 状态 为 MODULE_STATE_LIVE: 


mod->state = MODULE STATE LIVE; 
> 释放 INIT section 所 占用 的 空间 


模块 一 旦 被 成 功 加 载 ，HDR 视图 和 和 INIT section 所 占 的 内 存 区 域 将 不 再 会 被 用 到 ， 因 此 需 
要 释放 它们 ,在 sys init module 函数 中 , 释放 INIT section 所 在 内 存 区 域 由 函数 module free 
完成 ， 后 者 调用 vfree 来 释放 INIT section 区 域 (mod->module init): 


module free(mod, mod->module init); 


HDR 视图 所 占 空 间 的 释放 实际 上 发 生 在 load. module 函数 的 最 后 部 分 : 


unsigned long len, 
const char —user *uargs) 
vfree(hdr); 


} 
模块 成 功 加 载 进 系统 之 后 ， 正 在 运行 的 内 核 和 系统 中 所 有 加 载 的 模块 关系 如 图 1-10 所 示 : 





图 1-10 ”内 核 与 内 核 模 块 
内 核 用 一 全 局 变量 modules 链表 记录 系统 中 所 有 已 加 载 的 模块 。 


Q 呼叫 模块 通知 链 


Linux 内 核 提供 了 一 个 很 有 趣 的 特性 ， 也 就 是 所 谓 的 通知 链 (notifier call chain)， 这 个 特性 
不 只 是 在 模块 的 加 载 过 程 中 会 使 用 到， 在 内 核 系统 的 其 他 组 件 中 也 常常 会 使 用 到 。 通 过 通 
知 链 ， 模 块 或 者 其 他 的 内 核 组 件 可 以 对 向 其 感 兴趣 的 一 些 内 核 事件 进行 注册 ， 当 该 事件 发 
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生 时 ， 这 些 模 块 或 者 组 件 当 初 注册 的 回调 函数 将 会 被 调用 。 内 核 模块 机 制 中 实现 的 模块 遂 
知 链 module notify list 就 是 内 核 中 众多 通知 链 中 的 一 条 。 通 知 链 背 后 的 实现 机 制 其 实 很 简 
单 ， 通 过 链表 的 形式 ， 内 核 将 那些 注册 进来 的 关注 同类 事件 的 节点 构成 一 个 链表 ， 当 某 一 
特定 的 内 核 事 件 发 生 时 ， 事 件 所 属 的 内 核 组 件 负责 遍历 该 通知 链 上 的 所 有 节点 ， 调 用 节点 
上 的 回调 函数 。 所 有 的 通知 链 头 部 都 是 一 个 struct blocking notifier head 类 型 的 变量 ,该 类 
型 的 定义 为 : 


站 a i Se 


struct blocking notifier_head 
struct rw semaphore rwsem; 
struct notifier block *head; 
h 
这 里 以 内 核 模 块 的 通知 链 module notify list 为 例 ， 来 讨论 一 下 通知 链 的 实现 原理 。 
module notify list 为 一 全 局 变量 ， 用 来 管理 所 有 对 内 核 模 块 事件 感 兴趣 的 通知 节点 ， 其 定 
MA: 
«kernel/module.c- 
"static BLOCKING NOTIFIER HEAD(module notify list); ——— 
上 述 定 义 其 实 是 定义 并 初始 化 了 一 个 类 型 为 struct blocking notifier head 的 对 象 
module_notify_list。 如 果 一 个 内 核 模块 想 了 解 当前 系统 中 所 有 与 模块 相关 的 事件 , 可 以 调用 
register module notifier 同 内 核 注册 一 个 节点 对 象 ， 该 节点 对 象 中 包含 有 一 个 回调 函数 。 当 
register module notifier 函数 成 功 阿 系统 注册 了 一 个 回调 节点 之 后 ， 系 统 中 所 有 那些 模块 相 
关 的 事件 发 生 时 都 会 调用 到 这 个 回调 函数 。 为 了 具体 了 解 幕后 的 机 制 ， 下 面 先 来 看 看 
register module notifier HA P3 Ug Sa PH LH: 


<kernel/module.c> 


一 一 一 


t 
return blocking notifier chain register(&module notify list, nb); 
} 


函数 的 参数 是 个 struct notifier_block 型 指针 ， 代 表 一 个 通知 节点 对 象 。struct notifier block 
的 定义 为 : 


«include/linux/notifier.h7 

cu o OPI osa aaa ie A 
int (*notifier call)(struct notifier block *, unsigned long, void *); 
struct notifier block *next; 
int priority; 


H 
KH, notifier call 就 是 所 谓 的 通知 节点 中 的 回调 函数 ，next 用 来 构成 通知 链 ， priority 代表 
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一 个 通知 节点 优先 级 ， 用 来 决定 通知 节点 在 通知 链 中 的 先后 顺序 ， 数 值 越 大 代表 优先 级 越 
高 。 | 

blocking notifier chain register 最 终 通 过 调用 notifier chain register 函数 将 一 个 通知 节点 加 
入 module notify list 管理 的 链表 。 在 向 一 个 通知 链 中 加 入 新 节点 时 ， leo age 
priority 作为 一 个 排序 关键 字 进 行 简单 排序 ， 其 结果 是 越 高 优先 级 的 节点 越 靠近 头 节点 ， 

有 事件 发 生 时 ， 最 先 被 通知 。 图 1-11 展示 了 争 个 模块 在 同一 条 通知 链 上 调用 
register module_notifier， 由 此 形成 的 该 调用 链 络 构 示 意图 : 


人 通知 节点 1 f 通知 节点 2 " 通知 节点 n 





图 1-11 内 核 中 的 一 条 道 知 链 构 成 示意 图 


与 register module notifier 相反 ， 如 果 要 从 一 条 通知 链 中 注销 一 个 通知 节点 ， 那 么 应 该 使 用 
unregister module notifier FIA, iX ER LS] i 90 A: 


int unregister module notifier(struct notifier block * nb); 


以 上 讨论 了 如 何 向 /从 系统 中 的 一 条 通知 链 注 册 / 注 销 一 个 道 知 节点 , 接 下 来 看 看 当 某 个 特定 
的 内 核 事 件 发 生 时 ， 通 知 链 上 各 节点 的 回调 函数 如 何 被 触发 。 以 内 核 模块 加 载 过 程 为 例 ， 
sys init module 函数 在 调用 完 load module 之 后 ， 会 通过 blocking notifier call chain 函数 
来 通知 调用 链 module notify list 上 的 各 节点 ， 例 如 ， 如 果 load module 函数 成 功 返 回 ， 表 
明 模 块 加 载 的 大 部 分 工作 已 经 完成 ， 此 时 sys init module 会 通过 调用 
blocking notifier call chain 函数 来 通知 module notify list 上 的 节点 ， 一 个 模块 正在 被 加 入 
系统 (MODULE STATE COMING?: 


<kernel/module.c> 


Se phe ee ary ee RN. ee m, 
= mom omowom om m m om mom ox ee ee eee eee eR re rm tee ee eee ee eee eee ee ee term eee et el 


sys init module( void — user * umod, unsigned long len, constchar  user*  uargs) 


i 
mod = load module(umod, len, uargs); 
if(IS ERR(mod)) 
return PTR ERR(mod); 


blocking notifier call chain(&module notify list; MODULE STATE COMING, mod); 


} 


上 面 代 码 段 中 的 blocking notifier call chain 函数 将 使 通知 链 module notify list 上 的 各 节点 
的 回调 函数 均 被 调用 ， 其 实现 原理 可 以 简单 概括 为 遍历 module notify list 上 的 各 节点 ， 依 
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次 调用 各 节点 上 的 notifier_call 函数 。 读 者 从 源码 中 也 可 以 发 现 ， 对 于 模块 加 载 的 其 他 阶段 
(MODULE_STATE_ LIVE 和 MODULE STATE GOING )， 内 核 模 块 加 载 器 也 都 会 调用 
blocking notifier call chain 函数 来 通知 module notify list 上 的 各 个 通知 节点 。 


最 后 用 一 个 实际 的 例子 来 加 深 读 者 对 模块 通知 链 的 理解 ， 下 面 所 列 内 核 模 块 modnoti.ko 的 
源码 展示 了 如 何 利 用 模块 通知 链 来 监听 系统 中 与 模块 相关 的 事件 : 


#include <linux/module.h> 
#include <linux/kernel.h> 
#include <linux/slab.h> 


static struct notifier_block *pnb = NULL; 
static char *mstate[] = {"LIVE", "COMING", "GOING" }; 


/通知 节点 对 象 pnb 上 的 回调 函数 
int get notify(struct notifier block *p, unsigned long v, void *m) 
{ 
printk("module <%s> is %s, p->priority=%od\n", ((struct module *)m)->name, mstate[v], 
p->priority); 
return 0; 


} 


static int hello_init(void) 

{ 
1 分 配 一 个 struct notifier block 通知 节点 对 象 
pnb = kzalloc(sizeof(struct notifier block), GFP KERNEL); 
if(!pnb) 

return -1; 

/通知 节点 上 的 回调 函数 
pnb->notifier_call = get notify; 
pnb->priority = 10; 
register module notifier(pnb); 
printk(" A listening module is coming...\n"); 
return 0; 


} 


static void hello exit(void) 
{ 
unregister module notifier(pnb); 
kfree(pnb); 
printk(" A listening module is going\n"); 
} 


module init(hello init); 
module exit(hello exit); 
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当 通 过 “insmod modnoti.ko” 把 该 内 核 模块 加 入 系统 后 ， 在 dmesg 的 输出 中 可 以 发 现 如 下 
的 输出 信息 : 


root(@AMDLinuxF GL:/home/dennis/book'gene-module# dmesg 
(230330.738545] A listening module is coming... 
[230330.738555] module <modnoti> is LIVE, p->priority=10 


因为 modnoti.ko P HAME module notify list 注册 一 个 节点 的 动作 发 生 在 模块 的 初始 化 函 
数 中 ， 所 以 虽然 sys init module 函数 在 模块 初始 化 函数 前 调用 了 
blocking notifier call chain(&module notify list, MODULE STATE COMING, mod). 但 是 此 
时 modnoti 模块 的 通知 节点 还 没有 出 现在 module notify list 通知 链 中 ， 因 而 modnoti 只 能 
接收 到 发 生 在 模块 初始 化 函数 之 后 的 blocking notifier call chain(&module notify list, 
MODULE STATE LIVE, mod) 的 通知 消息 。 


在 成 功 加 载 完 modnoti.ko 模块 后 ， 再 通过 “insmod demodevko” 来 加 载 另 一 个 内 核 模块 ， 
此 时 dmesg 的 输出 又 多 出 了 如 下 两 行 : 


[230357.414452] module <demodev> is COMING, p->priority=10 
[230357.414467] module <demodev> is LIVE, p->priority=10 


对 比 sys_init_module 函数 源码 ， 读 者 应 该 很 容易 理解 为 何 出 现 上 述 两 行 输出 。 


1.3.5 ara 


相对 于 模块 的 加 载 ， 从 系统 中 名 载 一 个 模块 的 任务 则 要 轻松 得 多 。 将 一 个 模块 从 系统 中 种 
载 ， 使 用 rmmod 命令 ， 比 如 “rmmod demodev". rmmod 通过 系统 调用 sys delete module 
KRHA TE, BeBe one: 


long sys delete module(const char — user * name user, unsigned int flags); 
O find module 函数 
sys delete module AA Bi AHRAAP as ROB SGH CER ER 45H]. stmnepy. from. user 函数 复制 
到 内 核 空间 : 


if (strncpy_from_user(name, name user, MODULE NAME LEN-1) < 0) 
retum -EFAULT; 


然后 调用 find module 函数 在 内 核 维护 的 模块 链表 modules 中 利用 name EREA 
Ht. find module 函数 的 定义 如 下 : 


<kermel/module.c> 


“T= mn 


/* Search for module by name: must hold module mutex. */ 
struct module *find module(const char *name) 
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struct module *mod; 


list for each entry(mod, &modules, list) { 
if (stremp(mod->name, name) == 0) 
return mod; 


j 
return NULL; 


} 


PE SHIT list for each entry 在 modules 链表 中 遍历 每 一 个 模块 mod， 通 过 前 面 的 讨论 我 们 
知道 ， 全 局 变量 modules 用 来 管理 系统 中 所 有 已 加 载 的 模块 形成 的 链表 。 如 果 查 找到 指定 
的 模块 ， 则 函数 返回 该 模块 的 mod 结构 ， 理 则 返回 NULL. 


O 检查 模块 依赖 关系 


如 果 sys delete module 函数 成 功 查找 到 了 蓝 撮 载 的 模块 ， 那 么 接 下 来 就 要 检查 是 否 有 别 的 
模块 依赖 于 当前 要 卸载 的 模块 ， 为 了 系统 的 稳定 ， 一 个 有 依赖 关系 的 模块 不 应 该 从 系统 中 
印 载 挤 。 在 前 面 “ 模 块 间 的 依赖 关系 ”部 分 中 已 经 讨论 了 内 核 如 何 跟踪 系统 中 各 模块 之 间 
的 依赖 关系 ， 这 里 只 需 检查 要 卸载 模块 的 source list 链表 是 否 为 室 ， 即 可 判断 这 种 依赖 关 
系 ， 相 关 代 码 段 为 : 
if (!list_empty(&mod->source_list)) { 
/* Other modules depend on us: get rid of them first. */ 
ret = -EWOULDBLOCK; 


goto out; 
} 


O free module 函数 
如 果 一 切 正常 , sys delete module 函数 最 后 会 调用 free module 函数 来 做 模块 卸载 末期 的 一 
些 清理 工作 ,包括 更 新 模块 的 状态 为 MODULE STATE GOING， 将 卸载 的 模块 从 modules 


链表 中 移 除 ， 将 模块 占用 的 CORE section 空间 释放 ， 释 放 模 块 从 用 户 室 间 接收 的 参数 所 占 
的 空间 等 ， 函 数 的 实现 相对 比较 直 白 ， 这 里 就 不 再 仔细 讨论 了 。 


1.4 A2 


本 章 详细 讨论 了 作为 设备 驱动 程序 的 重要 存在 形式 一 一 内 核 模 块 幕后 的 技术 细节 ， 内 核 模 
块 可 以 在 系统 运行 期 间 动 态 扩 展 系统 的 功能 ， 这 是 其 最 大 的 优势 。 在 用 户 空 间 中 ， 加 载 和 
卸载 模块 使 用 的 是 一 组 称 为 mod utils 的 工具 包 , 其 中 包括 最 基本 的 insmod 和 rmmod TH. 


内 核 模块 在 文件 格式 上 是 一 种 可 重 定位 的 ELF 文件 ， 由 Linux 系统 中 的 内 核 模块 加 载 器 负 
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责 加 载 和 外 载 。 模 块 可 以 调用 内 核 源码 或 者 其 他 模块 实现 的 函数 ， 这 需要 模块 的 构造 工具 
链 和 内 核 模块 加 载 器 共同 协作 才 可 以 完成 。 为 此 , 内 核 和 内 核 模块 通过 EXPORT SYMBOL 
宏 向 外 导出 符号 ， 这 些 导出 的 符号 可 以 被 其 他 模块 所 使 用 ， 它 们 被 放 在 一 个 特殊 的 section 
中 ， 内 核 和 内 核 模 块 拥 有 各 自 的 section 用 来 保存 导出 符号 的 信息 。 系统 中 所 有 成 功 加 载 的 
模块 都 以 链表 的 形式 存放 在 内 核 的 一 个 全 局 变量 modules F. 


模块 在 编译 时 需要 指定 一 个 内 核 源码 树 ， 这 种 指定 不 是 出 于 链接 的 需要 ， 而 是 模块 需要 内 
核 源码 头 文件 中 的 一 些 定义 ， 包 括 以 头 文件 形式 出 现 的 内 核 配置 信息 。 因 此 ， 一 个 ,ko 文件 
总 是 基于 某 一 特定 内 核 源码 树 所 构成 ， 如 果 要 在 一 个 运行 不 同 内核 版 本 的 系统 中 加 载 该 .ko 
文件 ， 有 可 能 会 引起 一 些 潜 在 问题 。 例 如 ， 随 着 内 核 版 本 的 演进 ， 老 的 ,ko 文件 所 调用 的 一 
些 内 核 函 数 在 新 版 本 的 内 核 中 可 能 消失 或 者 改变 了 。 为 了 防止 这 一 问题 的 发 生 ， 内 核 引 入 
了 版 本 控制 机 制 。 如 果 内 核 模块 以 开放 源码 的 形式 向 外 发 布 ， 则 版 本 不 一 致 并 不 会 成 为 一 
个 问题 ， 用 户 可 以 在 新 版 本 的 内 核 上 重新 编译 构造 新 的 .ko 文件 。 


a2 s 


字符 设备 驱动 程序 


现实 世界 中 存在 着 大 量 的 设备 ， 这 些 设备 在 电气 特性 和 LO 方式 上 都 各 不 相同 。 为 了 简化 
设备 驱动 程序 员 的 工作 ，Linux 系统 从 这 些 各 异 的 设备 中 提取 出 了 共性 的 特征 ， 将 其 划分 
为 三 大 类 ， 字符 设备 、 块 设备 和 网 络 设 备 。 内 核 针 对 每 一 类 设备 都 提供 了 对 应 的 驱动 模型 
框架 ， 包 括 基本 的 内 核 设施 和 文件 系统 接口 。 这 样 设备 驱动 程序 员 在 写 某 类 设备 驱动 程序 
时 ， 就 有 一 套 完整 的 驱动 模型 框架 可 以 使 用 ， 从 而 可 将 大 量 的 精力 放 在 设备 本 身 的 操作 上 。 
图 2-1 展示 了 一 个 粗略 的 Linux 设备 驱动 程序 结构 图 : 


应 用 程序 





图 2-1 Linux 设备 驱动 程序 结构 图 


其 中 ,字符 设备 驱动 程序 是 这 三 类 设备 驱动 程序 中 最 常见 ， 也 是 相对 比较 容易 理解 的 一 种 ， 
现实 中 的 大 部 分 硬件 都 可 由 字符 设备 驱动 程序 来 控制 。 这 类 硬件 的 特征 是 ， 在 VO 传输 过 
程 中 以 字符 为 单位 ， 这 种 字符 流 的 传输 速率 通常 都 比较 缓慢 〈 因 而 其 内 核 设 施 中 不 提供 组 
存 机 制 )， 常 见 的 如 键盘 、 鼠 标 及 打印 机 等 设备 。 
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本 章 将 详细 讨论 构成 字符 设备 驱动 程序 的 内 核 设 施 的 幕后 机 制 ， 此 外 还 将 讨论 应 用 程序 如 
何 与 字符 设备 驱动 程序 进行 变 互 ， 也 即 应 用 程序 如 何 使 用 字符 设备 驱动 程序 提供 的 服务 ， 
这 将 涉及 字符 设备 的 文件 系统 接口 等 相关 内 容 。 


字符 设备 驱动 程序 所 提供 的 功能 是 以 设备 文件 + 的 形式 提供 给 用 户 空间 程序 使 用 , 本 章 将 首 
先 讨论 应 用 程序 与 设备 文件 ， 然 后 再 深入 探讨 字符 设备 驱动 程序 的 内 核 机 制 。 


2.1 ”应 用 程序 与 设备 驱动 程序 互动 实例 


在 深入 讨论 字符 设备 驱动 程序 之 前 ， 我 们 先 用 一 个 实际 的 例子 来 展示 应 用 程序 如 何 与 字符 
设备 驱动 程序 进行 交互 。 这 个 例子 中 ， 我 们 首先 给 出 一 个 简单 的 字符 设备 驱动 程序 的 内 核 
模块 ， 接 着 通过 insmod 工具 将 这 个 内 核 模块 加 入 到 系统 中 ， 之 后 通过 mknod 来 创建 一 个 
设备 文件 节点 〈 在 这 个 例子 中 我 们 将 手动 创建 设备 文件 节点 ， 不 过 后 面 会 讨论 设备 节点 的 
自动 生成 机 制 )， 最 后 再 编写 一 个 小 的 应 用 程序 , 用 该 应 用 程序 来 调用 前 面 设 备 驱 动 程序 所 
提供 的 服务 。 因 为 这 里 只 是 展示 应 用 程序 与 设备 驱动 程序 相互 交互 的 环节 ， 所 以 无 论 是 设 
备 驱 动 程序 还 是 应 用 程序 ， 都 尽量 保持 简单 且 与 具体 硬件 设备 无 关 。 在 本 章 后 续 的 小 节 中 
将 仔细 讨论 这 个 例子 中 所 有 关键 环节 的 幕后 技术 细节 。 


O 字符 设备 驱动 程序 源码 


<demo_chr_dev.c> 
#include <linux/module.h> 
#include <linux/kerne].h> 
#include <linux/fs.h> 


#include <linux/edev.h> 


static struct cdev chr dev; /定义 一 个 字符 设备 对 象 
static dev t ndev; /字符 设备 节点 的 设备 号 


static int chr_open(struct inode *nd, struct file *filp) 
{ 
int major = MAJOR(nd->i rdev); 
int minor = MINOR(nd->i_rdev); 
printk("chr open, major=%d, minor=%ed\n", major, minor); 
return 0; 


} 


static ssize t chr read(struct file * char — user *u, size t sz, loff t *off) 


{ 


1 本 书 中 “设备 文件 "、“ 设 备 文件 节点 ”和 “设备 节点 ”表述 的 是 同一 个 意思 。 
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printk("In the chr read() function!\n"); 
return (): 


} 


/字符 设备 驱动 程序 中 非常 关键 的 一 个 数据 结构 struct file operations 


struct file operations chr ops = 


( 
owner = THIS MODULE, 
open = chr open, 
read = chr read, 
h 
/模块 的 初始 化 函数 
static int demo init(void) 
{ 
int ret; 
cdev init(&chr dev, &chr ops); /初始 化 字符 设备 对 象 
ret = alloc chrdev region(&ndev, 0, 1, "chr dev"); // 分 配 设备 导 
if(ret < 0) 
return ret; 
printk("demo init():major-?ed, minor-?ed'n", MAJOR(ndev), MINOR(ndev)); 
ret = cdev add(&chr dev, ndev, 1);! 将 字符 设备 对 和 象 chr. dev 注册 进 系 统 
if(ret < 0) 
return ret; 
return 0; 
} 
static void demo exit(void) 
{ 
printk("Removing chr dev module...\n"); 
cdev del(&chr dev); /将 字符 设备 对 象 chr_ dev A X Spi d$ 
unregister chrdev region(ndev, 1); 7 释放 分 配 的 设备 号 
} 


module init(demo init); 


module exit(demo exit); 


MODULE LICENSE("GPL"); 
MODULE AUTHOR(' Dennis @AMDLinuxFGL"); 
MODULE DESCRIPTION("A char device driver as an example"); 


以 上 就 是 一 个 字符 设备 驱动 程序 的 源码 ， 虽 然 极其 简单 ， 以 至 于 没有 做 任何 有 实质 意义 的 


事情 ， 但 是 它 展示 了 字符 设备 驱动 程序 的 典型 框架 结构 ， 字 符 设备 驱动 程序 中 绝 大 多 数 的 
关键 元 素 者 出 现在 了 上 面 这 个 示例 程序 中 ， 它 们 将 成 为 本 章 后 续 讨 论 的 核心 。 
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读者 可 以 参照 下 面 这 个 简单 的 Makefile 文件 来 编译 上 述 的 模块 ; 


obj-m := demo_chr_dev.o 
KERNELDIR := /lib/modules/$(shell uname -r) /build? 
PWD := $(shell pwd} 


default: 

S$S(MAKE) -C $(KERNELDIR) M-$(PWD) modules 
clean: 

rm -f *.o *.ko *.mod.c 


dU OMA, REG BI — D 45 AH demo chr dev.ko 的 内 核 模 块 。 
O 应 用 程序 源码 


«main.c» 


#include Sein tS PE SS SO tg sce ete eed sera ei) atte ie See zoe eve ae Fe Saeco eH 
#include <fentl.h> 
#include <unistd.h> 


#define CHR_DEV_NAME "/dev/chr_dev" 


{ 
int ret; 
char buf[32]; — 
int fd = open(CHR_DEV_NAME, O RDONLY|O NDELAY); 
if(fd < 0) 
{ 


printf("open file %s failed!\n", CHR DEV NAME); 
return -1; 


} 
read(fd, buf, 32); 
close(fd); 


return 0; 
} 


读者 可 以 用 gee 来 生成 该 应 用 程序 的 可 执行 文件 main: 
root(@AMDLinuxFGL:/home/dennis/book/chap2/app# gcc main.c -o main 

应 用 程序 主要 是 用 open 打开 一 个 设备 文件 节点 ， 然 后 在 打开 的 设备 文件 描述 符 fd 上 调用 

read 函数 。 调 用 read 函数 时 ， 除 了 fd 必须 使 用 外 ， 其 他 两 个 参数 完全 是 为 了 满足 read A 


2 读者 可 能 需要 根据 自己 系统 中 实际 的 内 核 源码 路 径 来 修改 这 里 的 KERNELDIR 值 ， 以 消除 可 能 出 现 的 编译 错误 。 
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数 调用 的 需要 ， 设 备 驱动 程序 中 的 chr read 不 会 用 到 这 些 参数 。 


这 个 简单 的 例子 将 展示 应 用 程序 如 何 通过 文件 系统 调用 ， 穿 越 到 内 核 空间 ， 了 呼叫 到 设备 驱 
动 程序 实现 的 各 种 接口 函数 。 本 章 稍 后 将 和 读者 一 道 去 探讨 这 个 示例 程序 背后 所 包含 的 技 
术 细 节 ， 等 到 对 字符 设备 驱动 程序 的 各 种 内 核 设 施 及 文件 系统 的 接口 有 了 深入 的 理解 ， 相 
信和 在 实际 的 工作 中 一 定 可 以 自由 地 驾驭 它们 ， 即 便 遇 到 问题 也 可 以 快速 定位 和 解决 。 


O 示例 操作 步 又 
现在 用 insmod 把 demo chr dev.ko 加 入 到 系统 ; 

root@AMDLinuxF GL :/home/dennis/book/chap2/gene-module# insmod demo chr. devko 
dmesg 针对 这 个 insmod 的 输出 信息 为 : 

[19611.946440] demo_init():major=248, minor=0 


通过 上 面 dmesg 的 输出 信息 , 我 们 知道 alloc chrdev region 函数 给 内 核 模 块 demo_chr_ dev.ko 
分 配 的 主 设备 号 为 248， 次 设备 号 为 0。 根 据 这 个 设备 号 信息 用 mknod 命令 在 系统 的 /dev 
目录 下 为 该 模块 生成 一 个 新 的 设备 文件 节点 : 


root@AMDL inuxFGL:/home/dennis/book/chap2/app# mknod /dev/chr dev c 248 0 


如 果 一 切 正常 ， 那 么 在 /dev 目录 下 就 会 产生 一 个 新 的 设备 文件 节点 “jdev/chr dev", BLL 
用 ts 命令 来 仔细 观察 一 下 它 : 


root(@AMDLinuxFGL./home/dennis/book/chap2/app# Is -l /devichr dev 
crw-r--r-- | root root 248, 0 2011-05-11 21:41 /dewchr dev 


ETH ls 命令 的 输出 反映 出 了 设备 节点 “/dev/chr_dev” 的 如 下 一 些 关 键 信 息 ; 


“crw-r--t--” 中 的 字符 “c” 表 明 这 是 个 字符 设备 文件 ，248 是 该 设备 节点 的 主 设备 号 ， 次 设 
备 号 则 是 0， 这 跟 我 们 的 预期 是 完全 一 致 的 。 


有 了 对 应 的 设备 文件 之 后 ， 现 在 可 以 运行 我 们 的 应 用 程序 了 : 
root@AMDLinuxF GL /home/dennis/book/chap2/app# ./main 
查看 dmesg 对 此 的 输出 信息 : 


root(aà)4 MDLinuxFGL./home/dennis/book/chapZ/appil dmesg -c 
[20340.589750] chr. open, major=248, minor=0 
[20340.589760] In the chr read() function! 


对 比 前 面 内 核 模块 demo chr devko 的 源码 ， 读 者 应 该 知道 上 述 两 行 的 输出 分 别 来 自 内 核 
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模块 中 的 chr_open 和 chr read 函数 ， 虽 然 在 这 个 示例 程序 中 它们 几乎 没 做 任何 事情 ， 但 是 
我 们 见证 了 应 用 程序 成 功 调 用 到 了 设备 驱动 程序 实现 的 函数 ， 这 正 是 我 们 所 预期 的 目标 。 


2.2 struct file_operations 


在 开始 讨论 字符 设备 驱动 程序 内 核 机 制 前 ， 有 必要 先 交 代 一 下 struct file operations 数据 结 
构 ， 其 定义 如 下 : 


«include/linux/fs.h- 


E d o4 d 4 o — A Lolo o4 ool o HW oL o————L RA ——- agr -cxuL-c-crL.r xc cT HL LR OE .- oec 2 Wool oc. ol—c—Rod-—-—-—uom-—--armer-.vumdsmRBRdER.*4a----—--- 


struct file operations { 
struct module *owner; 
loff t (*llseek) (struct file *, loff t, int); 
ssize t (*read) (struct file *, char — user *, size t, loff t *); 
ssize t(*write) (struct file *, const char — user *, size t, loff t *); 
ssize t (*aio read) (struct kiocb *, const struct iovec *, unsigned long, loff t); 
ssize t (*aio write) (struct kiocb *, const struct iovec *, unsigned long, loff ty; 
int (*readdir) (struct file *, void *, filldir t); 
unsigned int (*poll) (struct file *, struct poll table struct *); 
long (*unlocked ioctl) (struct file *, unsigned int, unsigned long); 
long (*compat_ioctl) (struct file *, unsigned int, unsigned long); 
int (*mmap) (struct file *, struct vm area struct *); 
int (*open) (struct inode *, struct file *); 
int (*flush) (struct file *, fl. owner t id); 
int (*release) (struct inode *, struct file *); 
int (*fsync) (struct file *, int datasync); 
int (*aio fsync) (struct kiocb *, int datasync); 
int (*fasync) (int, struct file *, int); 
int (*lock) (struct file *, int, struct file lock *); 
ssize t (*sendpage) (struct file *, struct page *, int, size t, loff t *, int); 
unsigned long (*get_unmapped_area}(struct file *, unsigned long, unsigned long, unsigned long, 
unsigned long); 
int (*check. flags)(int); 
int (*flock) (struct file *, int, struct file lock *); 
ssize t (*splice write)(struct pipe inode info *, struct file *, loff t *, size t, unsigned int); 
ssize t (*splice read)(struct file *, loff t *, struct pipe inode info *, size t, unsigned int); 
int (*setlease)(struct file *, long, struct file lock **y; 
long (*fallocate)(struct file *file, int mode, loff t offset, loff t len); 


h 
可 以 看 到 ，struct file operations 的 成 员 变 量 几乎 全 是 函数 指针 ， 因 为 本 书 的 后 续 章 节 会 陆 
续 讨 论 到 这 个 结构 体 中 绝 大 多 数 成 员 的 实现 ， 所 以 这 里 不 再 解释 其 各 自 的 用 途 。 读 者 也 许 
很 快 会 发 现 ， 现 实 中 字符 设备 驱动 程序 的 编写 ， 其 实 基本 上 是 围绕 着 如 何 实现 struct 
file operations 中 的 那些 函数 指针 成 员 而 展开 的 。 通 过 内 核 文 件 系 统 组 件 在 其 间 的 穿 针 引 
线 ， 应 用 程序 中 对 文件 类 函数 的 调用 ， 比 如 read0 等 ， 将 最 终 被 转 接 到 struct file operations 
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中 对 应 函数 指针 的 具体 实现 上 。 


该 结构 中 唯一 非 函 数 指针 类 成 员 owner， 表 示 当 前 struct file operations 对 象 所 属 的 内 核 模 
块 ， 几 乎 所 有 的 设备 驱动 程序 都 会 用 THIS_ MODULE 宏 给 owner 赋值 ， 该 宏 的 定义 为 : 


有 一 


. this module 是 内 核 模块 的 编译 工具 链 为 当前 模块 产生 的 struct module 类 型 对 象 ， 所 以 
THIS MODULE 实际 上 是 当前 内 核 横 块 对 象 的 指针 , file operations 中 的 owner 成 员 可 以 避 
免 当 file operations 中 的 函数 正在 被 调用 时 ， 其 所 属 的 模块 被 从 系统 中 卸载 掉 。 如 果 一 个 设 
备 张 动 程序 不 是 以 模块 的 形式 存在 ， 而 是 被 编译 进 内 核 , 那么 THIS MODULE 将 被 赋值 为 
空 指针 ， 没 有 任何 作用 。 


23 ”字符 设备 的 内 核 抽象 


顾名思义 ,字符 设备 驱动 程序 管理 的 核心 对 象 是 字符 设备 。 从 字符 设备 驱动 程序 的 设计 框 
染 角 度 出 发 ， 内 核 为 字符 设备 抽象 出 了 一 个 具体 的 数据 结构 struct cdev， 其 定义 如 下 : 


«include/linux/cdev.h-» 


Frere — — nom om om m. Lol Lo €5soRol c ee ee ee ee 


struct kobject kobj; 

struct module *owner; 

const struct file operations *ops; 
struct list head list; 

dev t dev; 

unsigned int count; 


h 
在 本 章 后 续 的 内 容 中 将 陆续 看 到 它们 的 实际 用 法 , 这 里 只 把 这 些 成 员 的 作用 简单 描述 如 下 : 
struct kobject kobj 

ARIA BTR, FOE “Linux 设备 驱动 模型 ”一 章 中 讨论 。 
struct module *owner 

字符 设备 驱动 程序 所 在 的 内 核 模块 对 象 指针 。 
const struct file_operations *ops 


字符 设备 驱动 程序 中 一 个 极其 关键 的 数据 结构 ， 在 应 用 程序 通过 文件 系统 接口 呼叫 到 
设备 驱动 程序 中 实现 的 文件 操作 类 函数 的 过 程 中 ，ops 指针 起 着 桥梁 纽带 的 作用 。 
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struct list_head list 

用 来 将 系统 中 的 字符 设备 形成 链表 。 
dev t dev 

SRRENRES, HERE SR SW. 
unsigned int count 


隶属 于 同一 主 设备 号 的 次 设备 号 的 个 数 ， 用 于 表示 由 当前 设备 驱动 程序 控制 的 实际 同 
类 设备 的 数量 。 | 


设备 驱动 程序 中 可 以 用 两 种 方式 来 产生 struct cdev 对 象 。 一 是 静态 定义 的 方式 ， 比 如 在 前 
面 的 那个 示例 程序 中 ， 通 过 下 列 代码 静态 定义 了 一 个 struct cdev 对 象 : 


static struct cdev chr dev; 


5j PSE TE PEPE AAT ROBLES CT XE, Din: 


static struct cdev *p = kmalloc(sizeof(struct cdev), GFP_KERNEL); 


其 实 Linux 内 核 源 码 中 提供 了 一 个 函数 cdev alloc， 专 门 用 于 动态 分 配 struct cdev WR. 
cdev alloc 不 仅 会 为 struct cdev 对 象 分 配 内 存 空间 ， 还 会 对 该 对 象 进行 必要 的 初始 化 : 


aoe SU 
struct cdev *cdev_alloc(void) 
{ 
struct cdev *p = kzalloc(sizeof(struct cdev), GFP KERNEL); 
if (p) { 
INIT LIST HEAD(&p--list); 
kobject_init(&p->kobj, &ktype cdev dynamic); 
} 
return p; 
} 
需要 注意 的 是 ， 内 核 引 入 struct cdev 数据 结构 作为 字符 设备 的 抽象 ， 仅 仅 是 为 了 满足 系统 
对 字符 设备 驱动 程序 框架 结构 设计 的 需要 ,现实 中 一 个 具体 的 字符 硬件 设备 的 数据 结构 的 
抽象 往往 要 复杂 得 多 ， 在 这 种 情况 下 struct edev 常常 作为 一 种 内 贬 的 成 员 变 量 出 现在 实际 
设备 的 数据 机 构 中 ， 比 如 ， 
struct my keypad devi 
/硬件 相关 的 成 员 变 量 
int a; 
int b; 


int c; 
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(AR struct cdev 数据 结构 
struct cdev cdev; 
h 
在 这 样 的 情况 下 ， 如 果 要 动态 分 配 一 个 struct real char dev WR, cdev_alloc 函数 显然 就 无 
能 为 力 了 ， 此 时 只 能 使 用 下 面 的 方法 : 


static struct real char dev *p = kzalloc(sizeof(struct real char dev), GFP_KERNEL); 


前 面 讨论 了 如 何 分 配 一 个 struct cdev 对 象 , 接 下 来 的 一 个 话题 是 如 何 初始 化 一 个 cdev 对 象 ， 
内 核 为 此 提供 的 函数 是 cdev_init: 


<fs/char_ dev.c> 


i 


void cdev_init(struct cdev *cdev, const struct file_operations *fops) 


{ 
memset(cdev, 0, sizeof *cdev); 
INIT LIST HEAD(&cdev--list); 
kobject_init(&cdev->kobj, &ktype cdev default); 
cdev->ops = fops; 

} 


PRISER AA, AFR. — P struct cdev 对 象 在 被 最 终 加 入 系统 前 ， 都 应 该 被 初 
始 化 ， 无 论 是 直接 通过 cdev_init 或 者 是 其 他 途径 。 理 由 很 简单 ， 这 是 Linux 系统 中 字符 设 
备 驱 动 程序 框架 设计 的 需要 。 


照 理 在 谈 完 cdev 对 象 的 分 配 和 初始 化 之 后 ， 下 面 应 该 讨论 如 何 将 一 个 cdev .对象 加 入 到 系 
RS, 但 是 由 于 这 个 过 程 需要 用 到 设备 号 相关 的 技术 点 , 所 以 暂且 先 来 探讨 设备 号 的 问题 。 


2.4 设备 号 的 构成 与 分 配 


本 节 开 始 讨论 设备 号 相关 的 问题 ， 不 过 设备 号 对 于 设备 驱动 程序 而 言 究竟 意味 着 什么 ， 换 
句 话说 ， 它 在 内 核 中 起 着 怎样 的 作用 ， 本 节 暂 不 讨论 ， 这 里 只 关心 它 在 内 核 中 是 如 何 分 配 
和 管理 的 。 


2.4.1 设备 号 的 构成 


Linux 系统 中 一 个 设备 号 由 主 设备 号 和 次 设备 号 构成 ，Linux 内 核 用 主 设备 号 来 定位 对 应 的 
设备 驱动 程序 ， 而 次 设备 号 则 由 驱动 程序 使 用 ， 用 来 标识 它 所 管理 的 若干 同类 设备 。 因 此 
从 这 个 角度 而 言 ， 设 备 号 作为 一 种 系统 资源 ， 必 须 仔 细 加 以 管理 ， 以 防止 因 设 备 号 与 驱动 
程序 错误 的 对 应 关系 所 带 来 的 混乱 。 


Linux 用 dev t 类 型 变量 来 标识 一 个 设备 号 ， 这 是 个 32 位 的 无 符号 整数 ， 
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ee cs 


typedef u32 kernel dev t; 
typedef — kernel dev t dev t; 


图 2-2 显示 了 2.6.39 版 本 内 核 中 设备 号 的 构成 : 


dev_t 






图 2-2 Linux 的 设备 号 的 构成 


在 这 一 和 内核 版 本 中 ，dev_t 的 低 20 位 用 来 表示 次 设备 号 ， 高 12 位 用 来 表示 主 设备 号 。 随 着 
内 核 版 本 的 演变 ， 上 述 的 主 次 设备 号 的 构成 也 许 会 发 生 改 变 ， 所 以 设备 驱动 程序 开发 者 应 
该 避免 生 接 使 用 主 次 设备 与 所 占有 的 位 宽 来 获得 对 应 的 主 设备 号 或 次 设备 号 。 为 了 保证 在 
主 次 设备 号 位 宽 发 生 改 变 时 ， 现 有 的 程序 依然 可 以 正常 工作 ， 内 核 提供 了 如 下 几 个 宏 供 设 
备 驱 动 程序 操作 设备 号 时 使 用 : 


<include/linux/kdev_t.h> 

#define MAJOR(dev) ((unsigned int) ((dev) >> MINORBITS)) 
#define MINOR(dev) ((unsigned int) ((dev) & MINORMASK)) 
#define MKDEV(ma,mi) — (((ma) << MINORBITS) | (mi)) 


MAJOR 宏 用 来 从 一 个 dev t 类 型 的 设备 号 中 提取 出 主 设备 号 ，MINOR 宏 则 用 来 提取 设备 
号 中 的 次 设备 号 。MKDEV 则 是 将 主 设备 号 ma 和 次 设备 号 mi 合成 一 个 dev t 类 型 的 设备 
号 。 在 上 述 宏 定义 中 ，MINORBITS 宏 在 2.6.39 版 本 中 定义 的 值 是 20， 如 果 之 后 的 内 核对 
主 次 设备 号 所 占用 的 位 宽 重 新 进行 调整 ， 例 如 将 MINORBITS 改 成 12， 只 要 设备 驱动 程序 
坚持 使 用 MAJOR、MINOR 和 MKDEV 来 操作 设备 号 ， 那 么 这 部 分 代码 应 该 无 须 修改 就 可 
以 在 新 内 核 中 运行 。 


2.4.2 设备 号 的 分 配 与 管理 
在 内 核 源码 中 ， 涉 及 设备 写 分 配 与 管理 的 函数 主要 有 以 下 两 个 : 


O register chrdev region 函数 


APA EB LEG SEO F: 


«fs/char dev.c» 
intregister chrdev region(dev t from, unsigned count, const char *name) s 
{ 

struct char_device_struct *cd; 

dev_t to = from + count; 


dev t n, next; 
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for (n = from; n < to; n = next) { 
next = MKDEV(MAJOR(n)+1, 0); 
if (next > to) 
next = to; 
cd - register chrdev region(MAJOR (n), MINOR(n), 
next - n, name); 
if (IS ERR(cd)) 


goto fail; 
} 
return 0; 
fail: 
to = n; 
for (n = from; n < to; n = next) { 
next = MKDEV(MAJOR(n}+1, 0); 
kfree(__unregister_chrdev_region(MAJOR(n), MINOR(n), next - n)); 
} 
retum PTR ERR(cd); 
] 


该 函数 的 第 一 参数 from 表示 的 是 一 个 设备 号 ， 第 二 参数 count 是 连续 设备 编号 的 个 数 ， 代 
表 当 前 驱动 程序 所 管理 的 同类 设备 的 个 数 ， 第 三 参数 name 表示 设备 或 者 驱动 的 名 称 。 
register_chrdev region 的 核心 功能 体现 在 内 部 调用 的 _ register chrdev region 函数 中 ， 在 讨 
论 这 个 函数 之 前 ， 先 要 看 一 个 全 局 性 的 指针 数组 chrdevs， 它 是 内 核 用 于 设备 号 分 配 与 管理 
的 核心 元 素 ， 其 定义 如 下 : 


<fs/char_dev.c> 
static struct char device struct? {ee 
struct char device struct *next; 
unsigned int major; 
unsigned int baseminor; 
int minorct; 
char name[64]; 
struct cdev *cdev; /* will die */ 
} *chrdevs|CHRDEV MAJOR. HASH SIZE^]; 


这 个 数组 中 的 每 一 项 都 是 一 个 指向 struct char device struct 类 型 的 指针 。 系 统 刚 开始 运行 
时 ， 该 数组 的 初始 状态 如 图 2-3 Pra: 


现在 回 过 头 来 看 看 register chrdev region 函数 ， 这 个 函数 要 完成 的 主要 功能 是 将 当前 设备 
驱动 程序 要 使 用 的 设备 号 记录 到 chrdevs 数组 中 , 有 了 这 种 对 设备 号 使 用 情况 的 跟踪 ,系统 


3 这 个 结构 体 中 的 成 员 变 量 cdev 在 设备 号 管理 模块 中 没有 任何 用 处 ， 至少 在 目前 看 来 是 这 样 。 如 果 不 是 保留 用 于 将 来 的 
某 种 扩展 ， 那 么 可 以 预见 ， 在 不 久 的 将 来 这 个 成 员 最 终 会 被 清除 撞 ， 正 如 源码 注释 中 所 说 的 那样 ，”will die”. 
^ 在 2.6.39 版 本 的 内 核 源码 中 ，CHRDEV_MAJOR HASH SIZE 定义 的 值 为 255， 
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就 可 以 避免 不 同 的 设备 驱动 程序 使 用 同一 个 设备 号 的 情形 出 现 。 这 意味 着 当 设 备 驱动 程序 
调用 这 个 函数 时 ， 事 先 已 经 明确 知道 它 所 要 使 用 的 设备 号 ， 之 所 以 调用 这 个 函数 ， 是 要 将 
所 使 用 的 设备 号 纳入 到 内 核 的 设备 号 管理 体系 中 ， 防 止 别 的 驱动 程序 错误 使 用 到 。 当 然 如 
果 它 试图 使 用 的 设备 号 已 经 被 之 前 某 个 驱动 程序 使 用 了 ， 调 用 将 不 会 成 功 ，register_ 
chrdev region 函数 将 会 返回 一 个 负 的 错误 码 告知 调用 者 ， 如 果 调 用 成 功 ， 函 数 返 回 0。 


chrdevs [255] 


OxDOO0 0000 
0x0000 0000 


可 动态 分 
配 主 设备 
号 的 范围 


图 2-3 ”初始 状态 的 chrdevs 数组 结构 


上 述 这 些 设备 写 功 能 的 实现 其 实 最 终 发 生 在 register chrdev region 函数 内 部 所 调用 的 
. register chrdev region 函数 中 , 它 会 首先 分 配 一 个 struct char device struct 类 型 的 对 象 cd， 
然后 对 其 进行 一 些 初始 化 : 


<fs/char dev.c> 


marere ee Fe ee AJ = 


static struct char_device_struct * 
. register chrdev region(unsigned int major, unsigned int baseminor, 
int minorct, const char *name) 













NM o2 c 





254 


{ 
cd = kzalloc(sizeof(struct char_device_struct),GFP KERNEL); 


cd->major = major; 

cd->baseminor = baseminor; 

ed->minoret = minarct; 

stricpy(cd->name, name, sizeof(cd->name)); 


这 个 过 程 完 成 之 后 , 它 开始 搜索 chrdevs 数组 ， 搜 索 是 以 哈 希 表 的 形式 进行 的 ， 为 此 必须 首 
先 获取 一 个 散 列 关键 值 ， 正 如 读者 所 预料 的 那样 ， 它 用 主 设备 号 来 生成 这 个 关键 值 : 


i = major to index(major); 


这 是 个 非常 简单 的 获得 散 列 关键 值 的 方法 ，i = major % 255。 此 后 函数 将 对 chrdevs[i] 元 素 
管理 的 链表 进行 扫描 ， 如 果 chrdevs[i] 上 已 经 有 了 链表 节点 ， 表 明之 前 有 别 的 设备 驱动 程序 
使 用 的 主 设备 号 散 列 到 了 chrdevs[i 上 ， 为 此 函数 需要 相应 的 逻辑 确保 当前 正在 操作 的 设备 
号 不 会 与 这 些 已 经 在 使 用 的 设备 号 发 生 冲突 ， 如 果 有 冲突 ， 函 数 将 返回 错误 码 ， 表 明 本 次 
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调用 没有 成 功 。 如 果 本 次 调用 使 用 的 设备 号 与 chrdevsfi 上 已 有 的 设备 号 没有 发 生 冲 突 ， 先 
前 分 配 的 struct char. device struct 对 象 cd 将 加 入 到 chrdevs[i] 领 衡 的 链表 中 成 为 一 个 新 的 节 
点 。 没 有 必要 再 仔细 分 析 _register_chrdev_region 函数 中 的 相关 代码 了 , 接 下 来 以 一 个 具体 
的 例子 来 了 解 这 一 过 程 。 


在 chrdevs 数组 尚 处 于 初始 状态 的 情形 下 ,假设 现在 有 一 个 设备 驱动 程序 要 使 用 的 主 设备 号 
是 257， 次 设备 号 分 别 是 0、1、2 和 3 (意味 着 该 驱动 程序 将 管理 四 个 同类 型 的 设备 }。 它 
对 register chrdev region 函数 的 调用 如 下 : 


int ret = register_chrdev_region(MKDEV(257, 0), 4, "demodev"); 
上 述 对 register chrdev region 国 数 的 调用 完毕 后 , chrdevs 数组 的 状态 将 变 成 图 2-4 所 示 ( 图 


中 假设 新 分 配 的 struct char. device struct 节点 的 基地 址 为 0xC8000004， 这 些 节点 基地 址 数 
值 只 是 用 来 使 读者 有 个 直观 的 概念 ， 并 非 代表 系统 中 实际 分 配 的 地 址 值 ): 


chrdevs[255] 





struct char device struct 





图 2-4 主 设备 号 257 注册 后 的 chrdevs 数组 状态 


现在 假设 有 另 一 个 设备 驱动 程序 使 用 的 主 设备 号 为 2， 次 设备 号 为 0， 当 它 调用 
register_chrdev_region(MKDEV(2, 0), 1, "avmgdev") 来 则 系统 注册 设备 号 时 ,因为 2 % 255 =2, 
所 以 也 将 察 引 到 chrdevs 数组 的 第 2 项 ,虽然 数组 的 第 2 项 中 已 经 有 "demodev" 设 备 在 使 用 ， 
但 是 因为 这 次 注册 的 设备 号 是 MKDEV(2, 0)， 与 设备 "demodev" 的 设备 号 MKDEV(257, 0) 
并 不 冲突 , 所 以 注册 总 会 成 功 。 因为 Linux 在 将 设备 "augdev" 对 应 的 struct char. device struct 
对 象 节点 加 入 到 哈 希 表 中 时 ， 采 用 了 插入 排序 ， 这 导致 同一 哈 希 列 表 将 按照 major 的 大 小 
递增 排列 ， 因 此 此 时 的 chrdevs 数组 状态 如 图 2-5 Aras: 


OxC800 0108 . ,0xC800 0004 





TE 





ene 
aS 
phe: 
oe 


ee o o 
struct char device struct 





图 2-5 主 设备 号 2 加 入 后 的 chrdevs 数组 状态 
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一 个 有 趣 的 事实 是 ， 在 图 2-5 的 基础 上 ， 假 设 有 另 一 个 设备 驱动 程序 调用 register_chrdev_ 
region 函数 向 系统 注册 ， 主 设备 号 也 为 257， 那 么 只 要 其 次 设备 号 所 在 的 范围 [baseminor, 
baseminor + minorct] 不 与 设备 "demodev" 的 次 设备 号 范围 发 生 重 登 ， 系 统 依然 会 生成 一 个 新 
的 struct char device struct 节点 并 加 入 到 对 应 的 哈 希 链表 中 。 在 主 设备 号 相同 的 情况 下 ， 如 
果 次 设备 号 的 范围 有 重 和 又， 则 意味 着 有 设备 号 的 冲突 ， 这 将 导致 对 register chrdev region 
函数 的 调用 失败 。 对 主 设备 号 相同 的 才干 struct char. device struct 对 象 ， 当 系统 将 其 加 入 链 
表 时 ， 将 根据 其 baseminor 成 员 的 大 小 进行 递增 排序 。 


©  alloc chrdev region :&4& 


该 函数 由 系统 协助 分 配 设 备 号 ， 分 配 的 主 设备 号 范围 将 在 1~254 之 间 ， 其 定义 如 下 : 


<fs/char_dev.c> 


int alloc_chrdev_region(dev_t *dev, unsigned baseminor, unsigned count, 
const char *name) 
{ 
struct char device struct *cd; 
cd - register chrdev region(0, baseminor, count, name); 
if (IS_ERR(cd)) 
return PTR ERR(cd); 
*dev = MKDEV(cd->major, cd->baseminor); 
return 0; 


} 


这 个 函数 的 核心 调用 也 是 _ register_chrdev region, ， 相 对 于 register chrdev region, 
alloc chrdev region 在 调用 register chrdev region 时 ， 第 一 个 参数 为 0， 这 将 导致 
. register chrdev region 执行 下 面 的 逻辑 ; 


«fs/char dev.c» 


Goo dA hok AR do oho OR m da mo m Rm mm m momo omo AL rmm Lm -*omomwom EO Gm ocG ROGER Ro» 0L GE m E dn om ok — o l o -o— o —o— o — —o- -omorBor o -o-o*- & - EOm OLOR ROB: -c----——--4 


static struct char device struct * 
. register chrdev region(unsigned int major, unsigned int baseminor, 
int minorct, const char *name) 


{ 


if (major — 0) { 

for (i= ARRAY SIZE(chrdevs)-1; i > 0; i--) { 

if (chrdevs[i] == NULL) 
break; 

} 

if (i — 0) { 
ret = -EBUSY; 
goto out; 

} 

major = i; 

ret = major; 
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} 


上 述 代 码 片 段 的 实现 原理 非常 简单 ， 它 在 for 循环 中 从 chrdevs 数组 的 最 后 一 项 (也 就 是 第 
254 项 ) 依次 向 前 扫描 ， 如 果 发 现 该 数组 中 的 某 项 ， 比 如 第 i 项 ， 对 应 的 数值 为 NULL， 那 
么 就 把 该 项 对 应 的 索引 值 i 作为 分 配 的 主 设备 号 返回 给 驱动 程序 ， 同 时 生成 一 个 struct 
char device struct 节点 ， 并 将 其 加 入 到 chrdevs[i 对 应 的 哈 希 链表 中 。 如 果 从 第 254 项 一 直 
到 第 1 项 ， 这 其 中 所 有 的 项 对 应 的 指针 都 不 为 NULL， 那 么 函数 失败 并 返回 一 非 0 fü. * 
明 动 态 分 配 设 备 号 和 失败。 如 果 分 配 成 功 ， 所 分 配 的 主 设 备 号 将 记录 在 struct 
char device struct 对 象 cd 中 ， 并 将 该 对 象 返回 给 alloc_chrdev_region 函数 ， 后 者 通过 下 面 
的 代码 将 新 分 配 的 设备 号 返回 给 函数 的 调用 者 : 


*dev = MKDEV(cd->major, cd->baseminor); 


设备 号 作为 一 种 系统 资源 ， 当 所 对 应 的 设备 驱动 程序 被 卸载 时 ， 很 显然 要 把 其 所 占用 的 设 
备 号 归还 给 系统 ， 以 便 分 配给 其 他 内 核 模块 使 用 。 不 管 是 用 register chrdev region 还 是 
alloc chrdev region 注册 或 者 分 配 的 设备 号 ， 在 Linux 中 都 由 下 面 的 函数 负责 释放 ; 


<fs/char_dev.c> 


void unregister chrdev region(dev t from, unsigned count); 


函数 在 chrdevs 数组 中 查找 参数 from 和 count 所 对 应 的 struct char. device struct 对 象 节 点 ， 
找到 以 后 将 其 从 链表 中 删除 并 释放 该 节点 所 占用 的 内 存 ， 从 而 将 对 应 的 设备 号 释放 以 供 其 
他 设备 驱动 模块 使 用 。 


以 上 讨论 了 内 核 中 用 于 设备 号 分 配 与 管理 的 技术 细节 ， 焦 点 是 register chrdev region 和 
alloc_chrdev_region 两 个 函数 ， 除 了 alloc chrdev region 还 具有 让 系统 协助 分 配 一 个 主 设备 
号 的 功能 外 ， 它 们 最 主要 的 作用 其 实 都 是 通过 chrdevs 数组 来 跟踪 系统 中 设备 号 的 使 用 情 
况 ， 以 防止 实际 使 用 中 出 现 设备 号 冲突 的 情况 。 这 是 内 核 提 供给 设备 驱动 程序 使 用 的 一 种 
预防 性 措施 ， 并 没有 必然 的 理由 说 设备 驱动 程序 一 定 要 使 用 这 两 个 疯 数 ， 如 果 可 以 确定 设 
备 驱 动 程序 将 要 使 用 的 设备 号 不 会 与 系统 中 己 有 的 设备 号 发 生 冲 突 ， 完 全 可 以 绕 开 它们 。 
但 很 明显 这 是 一 种 非常 糟糕 的 习惯 ， 如 果 某 些 设备 驱动 程序 没有 使 用 系统 提供 的 
register chrdev region 或 者 alloc_chrdev_ region 函数 ， 那 么 系统 将 失去 一 个 对 设备 号 使 用 情 
况 进 行 跟踪 的 措施 。 既 然 内 核 在 设备 驱动 程序 的 框架 设计 中 定义 了 这 种 规则 ， 作 为 设备 驱 
动 程 序 的 实际 开发 者 ， 没 有 理由 不 去 遵循 这 些 规 则 。 


2.5 ”字符 设备 的 注册 


表面 已 经 讨论 了 字符 设备 对 象 的 分 配 、 初 始 化 及 设备 号 等 概念 ， 在 一 个 字符 设备 初始 化 阶 
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段 完 成 之 后 ， 就 可 以 把 它 加 入 到 系统 中 ， 这 样 别 的 模块 才 可 以 使 用 它 。 把 一 个 字符 设备 加 
入 到 系统 中 所 需 调用 的 函数 为 cdev_add， 它 在 Linux 源码 中 的 实现 如 下 : 


<fs/char_ dev. c 


int cdev - add(struct edev * P. 5, dev tdev, unsigned count) 


{ 
p->dev = dev; 
p->count = count; 
return kobj_map(cdev_map, dev, count, NULL, exact_match, exact_lock, p); 


} 


其 中 ， 参数 P 23 SIM A FAS RE E FT , dev 为 该 DIE Sab S, count 表示 从 
次 设备 号 开始 连续 的 设备 数量 。 


cdev add 的 核心 功能 通过 Kobi nap 函数 来 实现 ， 后 者 通过 操作 一 个 全 局 变量 cdev map 来 
把 设备 (*p) 加 入 到 其 中 的 哈 希 链 表 中 。cdev_map 的 定义 如 下 : 


__<fs/char_dev.c> 
static struct kobj_ map *cdev_ map; 


这 是 一 个 struct kobj map 指针 类 型 的 全 局 变量 ， 在 Linux 系统 启动 期 间 由 chrdev init 函数 
负责 初始 化 。struct kobj map 的 定义 如 下 : 


<drivers/base/map.c> 
struct kobj map | 
struct probe | 
struct probe *next; 
dev t dev; 
unsigned long range; 
struct module *owner; 
kobj probe t *get; 
int (*lock)(dev_t, void *); 
void *data; 
} *probes[255]; 
struct mutex *lock; 


}; 


kobj map 函数 中 哈 希 表 的 实现 原理 和 前 面 注册 分 配 设 备 号 中 的 几乎 完全 一 样 ， 通 过 要 加 入 
系统 的 设备 的 主 设备 号 major(major=MAJOR(dev)) 来 获得 probes 数组 的 索引 值 i(i = major 
% 255)， 然 后 把 一 个 类 型 为 struct probe 的 节点 对 象 加 入 到 probesfi 所 管理 的 链表 中 ， 如 图 
2-6 所 示 。 其 中 struct probe 所 在 的 矩形 块 中 的 深 色 部 分 是 我 们 重点 关注 的 内 容 ， 记 录 了 当 
前 正在 加 入 系统 的 字符 设备 对 象 的 有 关 信息 。 其 中 ，dev 是 它 的 设备 号 ，range 是 从 次 设备 
号 开始 连续 的 设备 数量 ，data 是 一 void * 变 量 ， 指 向 当前 正 要 加 入 系统 的 设备 对 象 指 针 p. 
图 2-6 展示 了 两 个 满足 主 设备 号 major % 255 = 2 的 字符 设备 通过 调用 cdev add 之 后 ， 
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cdev_map 所 展现 出 来 的 数据 结构 状态 。 


probes [255] 





struct probe ^ La... 





struct cdev struct cdev 
图 2-6 通过 cdev add 向 系统 中 加 入 设备 


所 以 ， 简 单 地 说 ， 设 备 驱动 程序 通过 调用 cdev_add IRE PSHM RE MRE RA A 
个 类 型 为 struct probe 的 节点 之 中 , 然后 再 把 该 节点 加 入 到 cdev_map 所 实现 的 哈 希 链表 中 。 


对 系统 而 言 ， 当 设备 驱动 程序 成 功 调 用 了 cdev add 之 后 ， 就 意味 着 一 个 字符 设备 对 象 已 经 
加 入 到 了 系统 ， 在 需要 的 时 人 息 ， 系 统 就 可 以 找到 它 。 对 用 户 态 的 程序 而 言 ，cdev_add 调用 
之 后 ， 就 已 经 可 以 通过 文件 系统 的 接口 呼叫 到 我 们 的 驱动 程序 ， 本 章 稍 后 将 会 详细 描述 这 
一 过 程 。 


不 过 在 开始 文件 系统 如 何 通过 cdev map 来 使 用 驱动 程序 提供 的 服务 这 个 话题 之 前 , 我们 要 
来 看 看 与 cdev_add 相对 应 的 另 一 个 函数 cdev_del。 其 实 光 通过 这 个 函数 名 ， 读 者 想必 也 想 
到 这 个 函数 的 作用 了 : 在 cdev_add 中 我 们 动态 分 配 了 struct probe 类 型 的 节点 , 那么 当 对 应 
的 设备 从 系统 中 移 除 时 ， 显 然 需 要 将 它们 从 链表 中 删除 并 释放 节点 所 占用 的 内 存 空间 。 在 
cdev map 所 管理 的 链表 中 查找 对 应 的 设备 节点 时 使 用 了 设备 号 ,cdev_del 函数 的 实现 如 下 : 


<fs/char_dev.c> 
E voidedev del(structodev *p) OO 
{ 
cdev unmap(p->dev, p->count); 
kobject_put(&p->kobj); 
} 


对 于 以 内 核 模块 形式 存在 的 驱动 程序 ， 作 为 通用 的 规则 ， 模 块 的 卸载 函数 应 负责 调用 这 个 
函数 来 将 所 管理 的 设备 对 和 象 从 系统 中 移 除 。 
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2.6 ”设备 文件 节点 的 生成 


在 Linux 系统 下 ， 设 备 文件 是 种 特殊 的 文件 类 型 ， 其 存在 的 主要 意义 是 沟通 用 户 空间 程序 
和 内 核 空间 驱动 程序 。 换 旬 话 说 ， 用 户 空间 的 应 用 程序 要 想 使 用 驱动 程序 提供 的 服务 ， 需 
要 经 过 设备 文件 来 达成 。 当 然 ， 如 果 你 的 驱动 程序 只 是 为 内 核 中 的 其 他 模块 提供 服务 ， 则 
没有 必要 生成 对 应 的 设备 文件 。 


按照 通用 的 规则 ，Linux 系统 所 有 的 设备 文件 都 位 于 /dev 目录 下 。 /dev 目录 在 Linux 系统 中 
算是 一 个 比较 特殊 的 目录 ， 在 Linux 系统 早期 还 不 支持 动态 生成 设备 节点 时 ，/dev HRE 
是 挂 载 的 根 文件 系统 下 的 /dev， 对 这 个 目录 下 所 有 文件 的 操作 使 用 的 是 根 文件 系统 提供 的 
接口 。 比 如 ， 如 果 Linux 系统 挂 载 的 根 文件 系统 是 ext3， 那 么 对 /dev 目录 下 所 有 目录 /文件 
的 操作 都 将 使 用 ext3 文件 系统 的 接口 。 随 着 后 来 Linux 内 核 的 演进 ， 开 始 支 持 动态 设备 节 
点 的 生成 5， 使 得 系统 在 启动 过 程 中 会 自动 生成 各 个 设备 节点 ,这 就 使 得 /dev 目录 不 必要 作 
为 一 个 非 易 失 的 文件 系统 的 形式 存在 。 因 此 ， 当 前 的 Linux 内 核 在 挂 载 完 根 文件 系统 之 后 ， 
会 在 这 个 根 文 件 系统 的 /dev 目 孙 上 重新 挂 载 一 个 新 的 文件 系统 devtmpfs， 后 者 是 个 基于 系 
St RAM 的 文件 系统 实现 。 当 然 ， 对 动态 设备 节点 生成 的 支持 并 不 意味 着 一 定 要 将 根 文件 
系统 中 的 /dev 目录 重新 挂 载 到 一 个 新 的 文件 系统 上 ， 事 实 上 动态 生成 设备 节点 技术 的 重点 
并 不 在 文件 系统 上 面 。 


动态 设备 世上 点 的 特性 需要 其 他 相关 技术 的 支持 ， 在 后 续 的 章节 中 会 详细 描述 这 些 特性 。 目 
前 先 假定 设备 节点 是 通过 Linux 系统 下 的 mknod 命令 静态 创建 。 为 方便 人 自述， 下面 用 一 个 
具体 的 例子 来 描述 设备 文件 产生 过 程 中 的 一 些 关 键 要 素 ， 这 个 例子 的 任务 很 简单 : 在 一 个 
ext3 类 型 的 根 文 件 系 统 中 的 /dev 目录 下 用 mknod 命令 来 创建 一 个 新 的 设备 文件 节点 
demodev， 对 应 的 驱动 程序 使 用 的 设备 主 设备 号 为 2， 次 设备 号 是 0， 命令 形式 为 : 


root@LinuxDev./home/dennis# mknod /dev/demodev c 2 0 


上 述 命 令 成 功 执 行 后 ， 将 会 在 /dev 目录 下 生成 一 个 名 为 demodev 的 字符 设备 节点 。 如 果 用 
strace 工具 来 跟踪 一 下 上 面 的 命令 ， 会 发 现 如 下 输出 〈 删 去 了 者 干 不 相关 部 分 ); 


root(a)LinuxDev:/home/dennistt strace mknod /dev/demodev c 2 0 
execve( "bin/mknod", ["mknod", "dewdemodev", "c", "30" "O"J. [/* 36 vars */]) = 0 


mknod("/dev/demodev", S IFCHR|0666, makedev(30,0)) = 0 


S 这 里 动态 生成 设备 节点 的 说 法 是 相对 于 使 用 mknod 命令 生成 设备 节点 而 言 的 , 前 者 直接 通过 文件 系统 接口 来 生成 对 应 
的 设备 节点 。 
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可 见 Linux 下 的 mknod 命令 最 终 是 通过 调用 mknod 函数 来 实现 的 , 调用 时 的 重要 参数 有 两 
个 ,一 是 设备 文件 名 ("dev/idemodev")， 二 是 设备 号 (makedev(30,0))。 设 备 文件 名 主要 在 
用 户 空 间 使 用 比如 用 户 空间 程序 调用 open 函数 时 )， 而 内 核 室 间 则 使 用 inode 来 表示 相 
应 的 文件 。 本 书 只 关注 内 核 空间 的 操作 ， 对 于 前 面 的 mknod 命令 ， 它 将 通过 系统 调用 
sys mknod 进入 内 核 空间 ， 这 个 系统 调用 的 原型 是 : 


注意 sys mknod 的 最 后 一 个 参数 dev， 它 是 由 用 户 空间 的 mknod 命令 构造 出 的 设备 号 。 
sys_mknod 系统 调用 将 通过 /dev 目录 上 挂 载 的 文件 系统 接口 来 为 /dev/demodev 生成 一 个 新 
的 inode6， 设 备 号 将 被 记录 到 这 个 新 的 inode WHE. 

图 2-7 展示 了 通过 ext3 文件 系统 在 /dev 目录 下 生成 一 个 新 的 设备 节点 /dev/demodev 的 主要 
流程 。 


lidey 对 应 的 inode 








inode_operations 


图 2-7 ext3 文件 系统 mknod 的 主要 流程 


完整 了 解 设备 节点 产生 的 整个 过 程 需 要 知晓 VES 和 特定 文件 系统 的 技术 细节 。 然 而 从 驱动 
程序 员 的 角度 来 说 ， 疫 有 必要 知道 文件 系统 相关 的 所 有 细节 ， 只 需 关注 文件 系统 和 驱动 程 
序 间 是 如 何 建立 上 关联 的 就 足够 了 。 





6 对 于 实际 的 文件 系统 ， 比 如 ext3 文件 系统 ， 产 生 一 个 node 的 过 程 因为 同时 要 涉及 底层 存储 设备 的 操作 ， 因而 会 变 得 
很 复杂 ， 
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sys mknod 首先 在 根 文件 系统 ext3 的 根 目录 “/” 下 寻找 dev 目录 所 对 应 的 inode， 图 中 对 
应 的 inode 编号 为 168，ext3 文件 系统 的 实现 会 通过 某 种 映射 机 制 ， 通 过 inode 编号 最 终 得 
到 该 inode 在 内 存 中 的 实际 地 址 〈 图 中 由 标号 1 的 线段 表示 )。 接 下 来 会 通过 dev 的 inode 
结构 中 的 iop 成 员 指针 所 指 同 的 ext3 dir inode operations (这 是 个 struct inode_operations 
类 型 的 指针 )， 来 调用 该 对 象 中 的 mknod 方法 ， 这 将 导致 ext3 mknod 函数 被 调用 。 


ext3 mknod 函数 的 主要 作用 是 生成 一 个 新 的 inode 〈 用 来 在 内 核 空间 表示 demodev 设备 文 
忻 节 点 , demodev 设备 节点 文件 与 新 生成 的 inode 之 间 的 关联 在 图 2-7 中 由 标号 5 的 线段 表 
m). TE ext3_mknod 中 会 调用 一 个 和 设备 驱动 程序 关系 密切 的 init special inode 函数 ， 其 
定义 如 下 : 


«fslinode.c» 


-rr 


void init_special_ inode(struct inode *inode, umode t mode, dev t rdev) 
{ 
inode->1_mode = mode; 
if (S_ISCHR(mode)) { 
inade-1 fop = &def_chr_fops; 
inode->i_rdev = rdev; 
} else if (8 ISBLK(mode)) | 
inode->i_fop = &def blk fops; 
inode->i_rdev = rdev; 
) else if(S ISFIFO(mode)) 
inode->i_fop = &def fifo fops; 
else if (S ISSOCK(mode)) 
inode->i_fop = &bad sock fops; 
else 
printk(KERN DEBUG "init special inode: bogus i mode (%0) for" 
" inode %s:%olu\n", mode, node->i sb->s id, 
inode--1 ino); 


} 
这 个 函数 最 主要 的 功能 便 是 为 新 生成 的 inode 初始 化 其 中 的 i fop li rdev 成 员 。 设备 文件 
节点 inode FAY i rdev 成 员 用 来 表示 该 inode 所 对 应 设备 的 设备 号 ， 通 过 参数 rdev 为 其 赋 


值 。 设备 号 在 由 sys_mknod 发 起 的 整个 内 核 调用 链 中 进行 传递 ， 最 早 来 自 于 用 户 空间 的 
mknod 命令 行 参 数 。 


i fop 成 员 的 初始 化 根据 是 字符 设备 还 是 块 设备 而 有 不 同 的 赋值 。 对 于 字符 设备 ，fop 指向 
def chr fops， 后 者 主要 定义 了 一 个 open 操作 : 


<fs/char_dev.c> 


eee 0 


const struct file - operations def_chr_fops = { 
open = chrdev open, 
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相对 于 字符 设备 ， 块 设备 的 def blk fops 的 定义 则 要 有 点 复杂 : 
Mu csi te hs I TI 
const struct file operations def blk fops { 


open = blkdev open, 
release = blkdev_close, 
Jlseek = block llseek, 
read =do sync read, 
write =do sync write, 


aio read = generic file aio read, 

aio write = blkdev aio write, 

.mmap = generic file mmap, 

.fsync — blkdev fsync, 

unlocked ioctl = block ioctl, 
#ifdef CONFIG_COMPAT 

compat ioctl = compat blkdev ioctl, 
#endif 

.splice_read= generic file splice read, 

Splice write — generic file splice write, 


Kk 


关于 块 设备 ， 将 在 本 书 第 11 章 “ 块 设备 驱动 程序 ”中 详细 讨论 ， 这 里 依然 把 考察 的 重点 放 
在 字符 设备 上 上。 字符 设备 inode 中 的 i fop 指向 def chr fops。 至 此 ， 设 备 节点 的 所 有 相关 
铺垫 工作 都 已 经 结束 ， 接 下 来 可 以 看 看 打开 一 个 设备 文件 到 底 意味 着 什么 。 


2. “字符 设备 文件 的 打开 操作 


作为 例子 ， 这 里 假定 前 面 对 应 于 /dev/demodev 设备 节点 的 驱动 程序 在 自己 的 代码 里 实现 了 
如 下 的 struct file operations 对 象 fops: 


static struct file operations fops = { 
open = demoopen, 
read = demoread, 
.write — demowrite, 
.ioctl = demoioctl, 


}; 
用 户 空 间 open 函数 的 原型 为 ; 


int open(const char *filename, int flags, mode_t mode); 


这 个 函数 如 果 成 功 ， 将 返回 一 个 文件 描述 符 ， 理 则 返回 -1。 函 数 的 第 一 个 参数 filename # 
示 要 打开 的 文件 名 ， 第 二 个 参数 flags 用 于 指定 文件 的 打开 或 者 创建 模式 ， 本 书 在 后 续 “ 字 
符 设 备 的 高 级 操作 ”一 章 中 会 讨论 其 中 一 些 常 见 取 值 对 驱动 程序 的 影响 ， 最 后 一 个 参数 


78 RA Linux 设备 驱动 程序 内 核 机 制 


mode 只 在 创建 一 个 新 文件 时 才 使 用 ， 用 于 指定 新 建文 件 的 访问 权限 ， 比 如 可 读 、 可 写 及 可 
执行 等 权限 。 


位 于 内 核 空 间 的 驱动 程序 中 open 函数 的 原型 为 ; 


<include/linux/fs.h> 


ae Se 333 choc doom 59S SS eS ee POL o eS eS ST ee ee ee Pp SS eee Pe meee Xp qe ee ure Gm m eee eee ee ee 


struct file_operations { 
int (*open) (struct inode *, struct file *); 
h 


两 者 相 比 差异 很 大 。 接 下 来 我 们 将 描述 从 用 户 态 的 open 征 如 何 一 步 一 步调 用 到 驱动 程序 提 
供 的 open 函数 《在 我 们 的 例子 中 ， 它 的 具体 实现 是 demoopen) 的 。 如 同 设备 文件 节点 的 
生成 一 样 ， 透 彻 了 解 这 里 的 每 一 个 步骤 也 需要 掌握 全 面 的 Linux 下 文件 系统 的 技术 细节 。 
从 设备 驱动 程序 员 的 角度 ， 我 们 依然 将 重点 放 在 两 者 如 何 建立 联系 的 关键 点 上 。 


用 户 程序 调用 open 函数 返回 的 文件 描述 符 ， 本 文 用 fd 表示， 这 是 个 int 型 的 变量 ， 会 被 用 
户 程 序 后 续 的 read. write 和 ioctl 等 函数 所 使 用 。 同 时 可 以 看 到 ， 在 驱动 程序 中 的 
demodev read, demodev write 和 demodev_ioctl 等 函数 其 第 一 个 参数 都 是 struct file *filp. 
显然 内 核 需 要 在 打开 设备 文件 时 为 fd 与 filp 建立 某 种 联系 ， 其 次 是 为 filp 与 驱动 程序 中 的 
fops 建立 关联 。 


用 户 空间 程序 调用 open 函数 ， 将 发 起 一 个 系统 调用 ， 通 过 sys open PAZ EA PE Ia], 
其 中 一 系列 关键 的 函数 调用 关系 如 图 2-8 所 示 : 
! Sys open 
do filp open. 
 nameidata to filp 


chrdev open | 


fd install 
图 2-8 sys open 到 chrdev open 调用 流程 


do sys open 函数 首先 通过 get unused fd flags 为 本 次 的 open 操作 分 配 一 个 未 使 用 过 的 文 
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件 摘 述 符 fd: 


<fs/open.c> 


本 


long do sys open(int dfd, const char. | user r *flename: int RN int mode) 


{ 
fd = get unused fd flags(flags); 


} 


get unused fd flags 实际 上 是 封装 了 alloc fd 的 一 个 宏 ， 真 正 分 配 fd 的 操作 发 生 在 alloc fd 
国 数 中 ， 后 者 会 涉及 大 量 文 件 系统 方面 的 细节 ， 这 不 是 本 书 的 主题 。 读 者 这 里 只 需 知道 
alloc fd 将 会 为 本 次 的 open 操作 分 配 一 个 新 的 fd. 


do sys open 随后 调用 do filp open 函数 ， 后 者 会 首先 查找 "dewdemodev" 设 备 文 件 所 对 应 
的 inode。 在 Linux 文件 系统 中 ， 每 个 文件 都 有 一 个 inode 与 之 对 应 。 从 文件 名 查找 对 应 的 
inode 这 一 过 程 ， 同 样 会 涉及 大 量 文件 系统 方面 的 细节 。 


do_filp_open 在 成 功 查找 到 "dev/demodev" 设 备 文 件 对 应 的 inode 之 后 ， 接 着 会 调用 国 数 
get empty flp， 后 者 会 为 每 个 打开 的 文件 分 配 一 个 新 的 struct file 类 型 的 内 存 空间 (本 书 将 
把 指向 该 结构 体 对 象 的 内 存 指针 简写 为 filp ): 


<fs/namei.c> 


人 


struct file *do filp open(int dfd, const char *pathname, 
const struct open flags *op, int flags) 


1 
struct nameidata nd; 
struct file *filp; 
filp = path openat(dfd, pathname, &nd, op, flags | LOOKUP RCU); 
return filp; 
} 


内 核 用 struct file 对 象 来 描述 进程 打开 的 每 一 个 文件 的 视图 ， 即 使 是 打开 同一 文件 ， 内 核 也 
会 为 之 生成 一 个 新 的 struct file 对 象 ， 用 来 表示 当前 操作 的 文件 的 相关 信息 ， 其 定义 为 : 


<include/linux/fs.h> 


下 TS TS eee eee ee ee A A Gm ee et wees eee ee ee ee — — eee ee eee tt eee eee 


struct file { 


7 为 了 跟踪 对 文件 的 读 写 竺 操作， 内 核对 于 每 次 打开 的 文件 都 会 分 配 一 个 谱 忻 描述 符 fd 和 一 个 struct file 类 型 的 实例 
flp， 这 个 二 元 组 (id, filp) 会 被 后 续 的 read. write 等 操作 使 用 以 向 内 核 记 录 本 次 读 写 操作 的 信息 。 从 这 个 角度 而 言 ， 伺 
实际 上 相当 于 一 个 文件 可 能 出 现 的 多 种 视图 的 一 个 索引 。 作 为 一 种 系统 资源 ， 一 个 进程 可 以 分 配 杀 少 个 伺 决 定 了 一 个 
进程 可 以 open £ /b4- x fF. 
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union { 
struct list head — fu list; 
struct reu head fu rcuhead; 
Tru 
struct path f path; 
fdefine f dentry f path.dentry 
#define f vfsmnt f path.mnt 
const struct file_operations — *f op; 


spinlock t f lock; 
atomic long t f count; 
unsigned int f flags; 
fmode_t f mode; 
loff_t f pos; 


struct fown structf owner; 
const struct cred  *f cred; 


struct file ra state f ra; 
u64 f version; 
#ifdef CONFIG_SECURITY 
void *f security; 
#endif 
/* needed for tty driver, and maybe others */ 
void *private data; 


#ifdef CONFIG EPOLL 
/* Used by fs/eventpoll.c to link all the hooks to this file */ 
struct list head — f ep links; 

#endif /* #ifdef CONFIG EPOLL */ 
struct address space —— *f mapping; 

h 


这 个 结构 中 与 设备 驱动 程序 关系 最 密切 的 是 f op. f. flags. f. count 和 private data 成 员 。f op 
指针 的 类 型 是 struct file_operations， 恰 好 我 们 的 字符 设备 驱动 程序 中 也 需要 实现 一 个 该 类 
型 的 对 象 ,马上 我 们 将 看 到 这 两 者 之 间 是 如 何 建立 联系 的 f_ flags 用 于 记录 当前 文件 被 open 
时 所 指定 的 打开 模式 , 这 个 成 员 将 会 影响 后 续 的 read/write 等 函数 的 行为 模式 。 成 员 f count 
用 于 对 struct file 对 象 的 使 用 计数 ， 当 close 一 个 文件 时 ， 只 有 struct file 对 象 中 f count 成 
员 为 0 才 真 正 执行 关闭 操作 。private_data 常 被 用 来 记录 设备 驱动 程序 自身 定义 的 数据 ， 
为 filp 指针 会 在 驱动 程序 实现 的 file operations X15 Ht kk fà Bez aes, 所 以 可 以 通过 
filp 中 的 private data 成 员 在 某 一 个 特定 文件 视图 的 基础 上 共享 数据 。 


进程 为 文件 操作 维护 一 个 文件 描述 符 表 (current->files->fdt)， 正 如 在 本 节 开 始 部 分 看 到 的 
那样 ， 对 设备 文件 的 打开 ， 最终 会 得 到 一 个 文件 描述 符 凶 ， 然 后 用 该 描述 符 fd 作为 进程 维 
护 的 文件 描述 符 表 (指向 struct file * 类 型 数组 ) 的 索引 值 ， 将 之 前 新 分 配 的 struct file 空间 
地 址 赋值 给 它 : 
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current->files->fdt->pfd|[fd] = filp; 


这 样 ,用 户 空 间 程序 在 后 续 的 read. write. ioctl 等 函数 调用 中 利用 fd 就 可 以 找到 对 应 的 filp， 
如 图 2-9 tas: 









当前 进程 struct fdtable 
f 
we | 一 [ 


分 配 的 struct file 空 间 filp 


图 2-9 fd 5j filp 的 关联 


在 do sys open 的 后 半 部 分 ， 会 调用 ”dentry open 函数 将 wdewdemodev" 对 应 节点 的 inode 
中 的 i_fop 赋值 给 filp->f op， 然 后 调用 i fop 中 的 open AA: 


<fs/open.c> 

static struct file * dentry open(struct dentry *dentry, struct vfsmount ‘mnt, — ^ ^ 
struct file *f, 
int (*open)(struct inode *, struct file *), 
const struct cred *cred) 

{ 


struct inode *inode; 
f->f_op = fops_get(inode->i_fop); 


if ('open && f->f_ap) 

open = f->f_op->open; 
if (open) { 

error = open(inode, f); 


} 


. dentry open RAYE nameidata to filp 中 被 调用 时 ， 第 四 个 实 参 是 NULL， 所 以 在 
. dentry open 中 ，open = f->f op->open 。 在 上 节 设 备 文件 节点 的 生成 中 ， 我 们 知道 
inode->i_fop = &def chr fops, iX#¥ filp->f_op = &def chr_fops。 接 下 来 会 利用 filp 中 的 这 
个 新 的 f_op 作 调用 : filp->f op->open(inode，filp)， 于 是 chrdev open 函数 将 被 调用 到 。 该 
函数 非常 重要 ， 为 了 突出 其 主线 ， 下 面 先 将 它 改写 成 以 下 简单 几 行 : 
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<fs/char_ dev.c> 


static int chrdev - open(struct inode *inode, struct fi le *fi ilp) 


{ 
int ret = 0, idx; 


struct kobject *kobj = kobj_lookup(cdev_map, inode->i_rdev, &idx); 
struct cdev *new = container of(kobj, struct cdev, kobj); 
inode-^i cdev = new; 
list add(&inode-7i devices, &new->list); 
filp->f_op = new->ops; 
if (filp->f_op->open) { 
ret = filp->f_op->open(inode, filp); 


} 
return ret; 


} 


na cus kobj lookup 在 cdev_ map 中 用 inode-»i rdev 来 查找 设备 号 所 对 应 的 设备 new, 
这 号 的 作用 。 成 功 查找 到 设备 后 ， 通 过 filp->f op = new->ops 这 行 代 码 将 设 
备 对 象 new 中 的 ops 指针 (前 面 曾 讨论 过 ， 了 驱动 程序 通过 调用 cdev init 将 其 实现 的 
file operations 对 象 的 指针 赋值 给 设备 对 象 cdev 的 ops 成 员 ) 赋值 给 filp 对 象 中 的 f op 成 
员 ， 此 处 展示 了 如 何 将 驱动 程序 中 实现 的 struct file operations 与 filp 关联 起 来 ， 从 此 图 2-9 
中 的 filp->f op 将 指向 驱动 程序 中 实现 的 struct file operations 对 象 。 


接 下 来 函数 会 检查 驱动 程序 中 是 否 实现 了 open 函数 (if (filp->f op->opem)， 如 果实 现 了 ， 就 
调用 设备 驱动 程序 中 实现 的 open 函数 。 打 开 一 个 字符 设备 节点 的 大 体 流 程 如 图 2-10 所 示 : 









O 事件 发 生 先后 顺序 


file o perations 
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图 中 ， 当 应 用 程序 打开 一 个 设备 文件 时 ， 将 通过 系统 调用 sys open 进入 内 核 空 间 。 在 内 核 
空间 将 主要 由 do sys open 函数 负责 发 起 整个 设备 文件 打开 操作 ， 它 首先 要 获得 该 设备 文 
件 所 对 应 的 inode， 然 后 调用 其 中 的 ifop 函数 ， 对 字符 设备 节点 的 inode 而 言 ，i_ fop EC 
ix chrdev_open “图 中 标号 1 的 线段 )， 后 者 通过 inode PHY i_rdev 成 员 在 cdev_ map 中 查 
找 该 设备 文件 所 对 应 的 设备 对 象 cdev (图 中 标号 2 的 线段 )， 在 成 功 找到 了 该 设备 对 象 之 
后 ， 将 inode HY) i cdev 成 员 指 问 该 字符 设备 对 象 “图 中 标号 3 的 线段 )， 这 样 下 次 再 对 该 设 
备 文 件 节点 进行 打开 操作 时 ， 就 可 以 直接 通过 ij cdev 成 员 得 到 设备 节点 所 对 应 的 字符 设备 
对 象 ， 而 无 须 再 通过 cdev_map 进行 查找 。 内 核 在 每 次 打开 一 个 设备 文件 时 ， 都 会 产生 一 个 
整 型 的 文件 描述 符 fd 和 一 个 新 的 struct file 对 象 fip 来 跟踪 对 该 文件 的 这 一 次 操作 , 在 打开 
设备 文件 时 ， 内 核 会 将 filp 和 fd 关联 起 来 ， 同 时 会 将 cdev 中 的 ops 赋值 给 filp->f op (图 
中 标号 4 的 线段 )。 最 后 ，sys_open 系统 调用 将 设备 文件 描述 符 fd 返回 到 用 户 空 间 ， 如 此 
在 用 户 空 间 对 后 续 的 文件 操作 read. write 和 ioctl 等 函数 的 调用 ， 将 会 通过 该 fa 获得 文件 
所 对 应 的 flp， 根 据 filp PAY f op 就 可 以 调用 到 该 文件 所 对 应 的 设备 驱动 上 实现 的 函数 。 


通过 以 上 过 程 ， 我 们 看 到 了 设备 号 在 其 中 的 重要 作用 。 当 设备 驱动 程序 通过 cdev_add 把 一 
个 字符 设备 对 象 加 入 到 系统 时 ， 需 要 一 个 设备 号 来 标记 该 对 象 在 cdev_map 中 的 位 置信 息 。 
SREAP ZEE mknod 来 生成 一 个 设备 文件 节点 时 ， 也 需要 在 命令 行 中 提供 设备 号 
的 信息 ， 内 核 会 将 该 设备 号 信息 记录 到 设备 文件 节点 所 对 应 inode 的 i_rdev 成 员 中 。 当 我 
们 的 应 用 程序 打开 一 个 设备 文件 时 ， 系 统 将 会 根据 设备 文件 对 应 的 inode->i_rdev 信息 在 
cdev map 中 寻找 设备 。 所 以 在 这 个 过 程 中 务必 要 保证 设备 文件 节点 的 inode->i_rdev 数据 和 
设备 驱动 程序 使 用 的 设备 号 完全 一 致 ， 否 则 就 会 发 生 严重 问题 。 对 应 到 现实 世界 的 操作 ， 
那 就 是 在 用 mknod 生成 设备 节点 时 所 提供 的 设备 号 信息 一 定 要 与 设备 驱动 程序 中 分 配 使 用 
的 设备 号 一 致 。 


在 上 述 open 一 个 设备 文件 的 基础 上 , 接 下 来 不 妨 看 看 它 的 相反 操作 close。 有 了 前 面 对 open 
操作 技术 细节 讨论 所 打下 的 良好 基础 , 现在 理解 起 close 并 不 困难 , 在 此 读者 也 正好 可 以 看 
看 用 户 空间 open 函数 返回 的 文件 描述 符 fd 如 何 被 close 等 函数 使 用 。 


HPN close 函数 的 原型 为 ， 


int close(unsigned int fd); 


针对 close 的 系统 调用 函数 为 sys_close， 这 里 将 其 核心 代码 重新 整理 如 下 : 


<fs/open. c> 
int sys_close(unsigned int fd) 
i 
struct file * filp; 
struct files struct *files = current->files: 
struct fdtable * fat; 
int retval: 
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fdt = files fdtable(files); 
filp = fdt->fd[fd]; 
retval = filp close(filp, files); 


return retval; 
} 


从 得 得 到 filp 这 段 代码 ,请 读者 参考 本 章 2-9。 接 下 来 调用 filp_close HA, close 函数 的 大 
部 分 秘密 都 隐藏 在 其 中 ， 有 必要 看 看 其 主要 代码 片段 : 
OO RET 
int filp close(struct file *filp, fl owner t id) 
{ 


int retval = 0; 


if ('file_count(filp)) { 
printk(KERN_ERR "VFS: Close: file count is On"); 
return 0; 


} 


if (filp->f_op && filp->f_op->flush} 
retval = filp->f op->flush(filp, id); 


fput(filp); 
return retval; 


} 


if (!file count(filp)) HR #4) filp FAY f. count 成 员 是 否 为 0, 如 果 针 对 同一 个 设备 文件 close 
的 次 数 多 于 open 次 数 ， 就 会 出 现 这 种 情况 ， 此 时 函数 直接 返回 0， 因 为 实质 性 的 工作 都 被 
前 面 的 close 做 完了 。 接 下 来 的 情况 有 点 意思 ， 如 果 设 备 驱 动 程序 定义 了 flush HR, MBA 
在 release 函数 被 调用 前 , 会 首先 调用 flush, 这 是 为 了 确保 在 把 文件 关闭 前 缓存 在 系统 中 的 
数据 被 真正 写 回 到 硬件 中 .字符 设备 很 少 会 出 现 这 种 情况 ， 因 为 这 种 设备 的 慢 速 VO 特性 
决定 了 它 无 须 使 用 这 种 缓冲 机 制 来 提升 系统 性 能 , 但 是 块 设备 就 不 一 样 了 ,比如 SCSI 硬盘 
会 和 系统 进行 大 量 数据 的 传输 ， 为 此 内 核 为 块 设 备 驱动 程序 设计 了 高 速 缓存 机 制 ， 这 种 情 
况 下 为 了 保证 文件 数据 的 完整 性 ， 必 须 在 文件 关闭 前 将 高 速 缓存 中 的 数据 号 回 到 磁 稚 中 。 
不 过 这 是 后 话 了 ， 块 设备 驱动 程序 的 这 种 机 制 将 在 “ 块 设备 驱动 程序 ”一 章 中 讨论 。 


函数 的 最 后 调用 fput， 和 貌似 很 简单 的 一 个 亢 数 ， 其 实 内 涵 却 很 丰富 : 


<fs/file_table. c» 


void fput(struct file *file) 
{ 
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if (atomic long dec and test(&file-^f count)) 
. fput(file); 
! 


国 数 中 的 那个 atomic long dec and test 是 个 体系 架构 相关 的 原子 测试 操作 ， 就 是 说 ， 如 果 
file->f_count 的 值 为 1, 那么 它 将 返回 true, 这 意味 着 可 以 真正 关闭 当前 的 文件 了 ,所 以 ”fput 
将 被 调用 ， 并 最 终 完 成 文件 关闭 的 任务 ， 它 的 一 些 关 键 调用 节点 如 下 所 示 ; 


«fs/file table.c» 


"rg 


{ 


if (unlikely(file->f_flags & FASYNC)) | 
if (file-—f op && file->f_op->fasync) 
file->f_op->fasync(-1, file, 0); 


} 
if (file->f op && file->f_op->release) 
file->f_op->release(inode, file); 


fops put(file-7f op); 
file free(file); 
} 


注意 上 面 的 FASYNC 标志 位 ， 在 本 书后 面 的 章节 会 讨论 到 file operations 中 的 一 些 常用 的 
函数 实现 。 然 后 函数 调用 到 了 设备 驱动 程序 中 提供 的 release 函数 ， 接 下 来 是 一 些 系统 资源 
的 释放 。 可 见 ， 对 于 应 用 程序 的 一 个 close 调用 ， 并 非 必然 对 应 着 release 函数 的 调用 ， 只 
有 在 当前 文件 的 所 有 副本 都 关闭 之 后 ，release 函数 才 会 被 调用 。 


2.8 ZZ 


本 章 描 述 了 字符 设备 驱动 程序 内 核 框 架 的 技术 细节 。 基 本 上 可 以 看 到 ， 字 符 设 备 驱 动 内 核 
框架 的 展开 是 按照 两 条 线 进行 的 : 一 条 是 设备 与 系统 的 关系 ， 一 个 字符 设备 对 象 cdev 通过 
cdev add 加 入 到 系统 中 (由 cdev map 所 管理 的 哈 希 链 表 )， 此 时 设备 号 作为 哈 希 索引 值 ; 
男 一 条 是 设备 与 文件 系统 的 关系 ,设备 通过 设备 号 以 设备 文件 的 形式 向 用 户 空间 宣示 其 存 
在 。 这 两 条 线 间 的 联系 通过 文件 系统 接口 去 打开 一 个 字符 设备 文件 而 建立 : 


€ mknod 命令 将 为 字符 设备 创建 一 个 设备 节点 ，mknod 的 系统 调用 将 会 为 此 设备 节点 产 
生 一 个 inode，mknod 命令 行 中 给 出 的 设备 号 将 被 记录 到 inode->i_rdev 中 ， 同 时 inode 
的 i_fop 会 将 open 成 员 指 向 chrdev open 函数 。 


e SAP "8 open 一 个 设备 文件 时 ，open 函数 通过 系统 进入 内 核 空 间 。 在 内 核 空间 ， 首 
先 找到 该 设备 节点 所 对 应 的 inode， 然 后 调用 inode->i fop->open()， 我 们 知道 这 将 导致 
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chrdev open 函数 被 调用 。 同 时 ，open 的 系统 调用 还 将 产生 一 个 ( 乌 ，filtp) 二 元 组 来 标识 
本 次 的 文件 打开 操作 ， 这 个 二 元 组 是 一 一 对 应 的 关系 。 


€ chrdev_open 通过 inode->i rdev 在 cdev map 中 查找 inode 对 应 的 字符 设备 ，cdev_map 
中 记录 着 所 有 通过 cdev_add 加 入 系统 的 字符 设备 。 


€ “V4 cdev_map 中 成 功 查找 到 该 字符 设备 时 ，chrdev_open 将 inode->i_cdev 指向 找到 的 
字符 设备 对 象 ， 同 时 将 cdev->ops 赋值 给 filp->f op. 


e “字符 设备 驱动 程序 负责 实现 struct file operations 对 象 ， 在 字符 设备 对 象 初始 化 时 
cdev init 函数 负责 将 字符 设备 对 银 cdev->ops 指 同 该 file operations JR. 


e 用 户 空间 对 字符 设备 的 后 续 操 作 ， 比 如 read. write 和 ioctl 等 ， 将 通过 open 函数 返回 
的 全 找到 对 应 的 filp， 然 后 调用 filp->fop 中 实现 的 各 类 字符 设备 操作 函数 。 


以 上 就 是 内 核 为 字符 设备 驱动 程序 设计 的 大 体 框架 ， 从 中 可 以 看 到 设备 号 在 沟通 用 户 空间 
的 设备 文件 与 内 核 中 的 设备 对 象 之 间 所 起 的 重要 作用 。 


另外 ， 对 于 字符 设备 驱动 程序 本 身 而 言 ， 核 心 的 工作 是 实现 struct file operations 对 象 中 的 
各 类 函数 ，file_operations 结构 中 虽然 定义 了 众多 的 函数 指针 ， 但 是 现实 中 设备 驱动 程序 并 
不 需要 为 它 的 每 一 个 函数 指针 都 提供 相应 的 实现 。 本 书后 面 的 “字符 设备 的 高 级 操作 ”一 
章 会 详细 讨论 其 中 一 些 重要 函数 的 作用 和 实现 原理 。 


TE 


DBA 


在 所 有 驱动 程序 所 使 用 的 内 核 设 施 中 ， 分 配 并 使 用 内 宇 是 其 中 最 基本 也 是 最 重要 的 一 个 环 
节 。 本 章 将 详细 讨论 驱动 程序 所 使 用 的 内 核 分 配 函 数 的 实现 机 制 ， 以 透彻 了 解 这 些 内 存 分 
配 函 数 的 幕后 细节 ， 进 而 开发 可 以 更 有 效 更 安全 地 使 用 系统 内 存 资 源 的 驱动 程序 。 内 核 中 
的 这 些 内 人 存 分 配 函 数 都 依赖 于 内 核 中 一 个 复杂 而 重要 的 构件 ;内存 管 理 。 作 为 一 本 Linux 
驱动 程序 方面 的 书籍 ， 不 可 能 在 这 一 章 中 详细 讨论 所 有 的 内 存 管理 细节 ， 但 是 讲解 内 核 分 
配 函 数 的 实现 ， 又 不 可 避免 地 亡 与 内 核 中 的 内 存 管理 模块 打交道 。 为 使 读者 能 够 理解 分 配 
函数 的 代码 机 制 ， 笔 者 会 概括 性 地 介绍 与 代码 相关 的 内 存 管理 的 实现 原理 ， 在 这 一 过 程 中 
将 尽量 不 涉及 太 多 体系 架构 相关 的 细节 ， 而 引用 内 核 源 码 树 中 这 部 分 代码 时 的 原则 则 是 ， 
尽 可 能 只 保留 与 驱动 程序 所 使 用 到 的 内 存 分 配 函 数 代码 实现 相关 的 部 分 。 


Linux 下 对 内 存 的 管理 总 体 上 可 以 分 为 两 大 类 : 一 是 对 物理 内 存 的 管理 ;二 是 对 虚拟 内 存 
的 管理 。 前 者 用 于 特定 的 平台 构架 上 实际 物理 内 存 空间 的 管理 ， 后 者 用 于 特定 的 处 理 器 体 
系 架构 上 虚拟 地 址 空间 的 管理 。 


3.1 物理 内 和 存 的 管理 


Linux 系统 为 了 用 统一 的 代码 获得 量 大 程度 的 兼容 性 ， 在 对 物理 内 存 的 定义 方面 ， 引 入 了 
Ati (node)、 内 存 区 域 (zone) MATI (page) 的 概念 。 其 对 物理 内 存 的 管理 总 体 
上 又 可 以 分 成 两 大 部 分 : 最 底层 实现 的 是 页 面 级 内 存 管理 ， 然 后 是 基于 页 面 级 管理 之 上 的 
slab 内 存 管 理 。 

3.1.1 内 存 节 点 node 


内 存 字 后 的 引入 ， 是 因为 Linux 系统 为 了 最 大 程度 的 兼容 性 ， 将 UMA RAA NUMA 系统 
统一 起 来 ， 对 于 UMA 而 言 是 只 有 一 个 内 存 节点 的 系统 。 


在 计算 机 世界 中 ， 有 两 种 物理 内 存 管理 模型 被 广泛 使 用 ， 它 们 分 别 是 ， 
(1) UMA (一 致 内 存 访问 ，Uniform Memory Access) 模型 ， 该 模型 的 内 存 空 间 在 物理 上 也 
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许 是 不 连续 的 (比如 空 润 的 存在 ), 但 所 有 的 内 存 空 间 对 系统 中 的 处 理 器 而 言 具 有 相 辣 的 访 
问 特 性 ， 也 即 系统 中 所 有 处 理 器 对 这 些 内 存 的 访问 具有 相同 的 速度 。 


(2) NUMA ( 非 一 致 内 存 访问 ，Non-Uniform Memory Access) 模型 ， 使 用 这 种 模型 的 总 是 
多 处 理 器 系统 ， 系 统 中 的 各 个 处 理 嚣 都 有 本 地 内 存 ， 处 理 器 与 处 理 器 之 间 通 过 总 线 连 接 起 
来 以 支持 对 其 他 处 理 器 本 地 内 存 的 访问 。 与 UMA 模型 不 同 的 是 ， 处 理 器 访问 本 地 内 存 的 
速度 要 快 于 对 其 他 处 理 器 本 地 内 存 的 访问 。 

Linux 源码 中 以 struct pglist data 数据 结构 来 表示 单个 内 存 节点 。 对 于 NUMA 模型 ， 多 个 内 
存 节点 通过 链表 串联 起 来 ，UMA 模型 因为 只 有 一 个 内 存 节 点 ， 因 而 不 存在 这 样 的 链表 。 


图 3-1 展示 了 两 种 内 存 模型 的 区 别 : 





( cpPU1 





A 


UMA 内存 模型 NUMA 内 存 模型 


图 3-1 两 种 内 存 模型 示意 图 


3.1.2 内存 区 域 zone 


内 存 区 域 属于 单个 内 存 节 点 中 的 概念 ， 考 虑 到 系统 的 各 个 模块 对 分 配 的 物理 内 存 有 不 同 的 
ER, 比如 32 位 x86 体系 架构 下 的 DMA 只 能 访问 16 MB 以 下 的 物理 内 存 空间 ,因此 Linux 
又 将 每 个 内 存 节 点 管理 的 物理 内 存 划 分 为 不 同 的 内 存 区 域 。 在 Linux 源码 中 ， 以 struct zone 
数据 结构 表示 每 一 个 内 存 区 域 ， 内 存 区 域 的 类 型 用 zone type 表示 ， 是 一 枚 举 型 变量 ， 


nie! ein cm o. oes ae cw a aas s “nen tat Án mw “a, 


enum zone type { 
#ifdef CONFIG ZONE DMA 
J* 
* 当 有 些 设备 不 能 使 用 所 有 的 ZONE NORMAL 区 域 中 的 内 存 空间 作 
"DMA 访问 时 ， 就 可 以 使 用 ZONE DMA 所 表示 的 内 存 区 域 。 于 是 我 
* 们 把 这 部 分 空间 划分 出 来 专门 用 做 DMA 访问 的 内 存 空间 。 
* 该 区 域 的 空间 访问 是 处 理 器 体系 架构 相关 的 


* 


Hoe Ex da Rech "s e wa qe oos cH ee ee ee 
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+ 一 些 例子 
* 
* 体 系 架 构 限制 
ee EESE CE E E 
* parisc, ia64, sparc <4GB 
* 5390 <2GB 
* arm Various 
* alpha Unlimited or 0-16MB 
* 1386, x86_64 and multiple other arches 
" <16MB 
*J 
ZONE DMA, 
#endif 


#ifdef CONFIG_ZONE_DMA32 
it 
*x86 64 架构 因为 除了 支持 只 能 使 用 低 于 16MB 空间 的 DMA 设备 外 ， 
* 还 支持 可 以 访问 4GB 以 下 空间 的 32 位 DMA 设备 ， 所 以 需要 两 个 
*ZONE DMA 内 存 区 域 . 
*/ 
ZONE_DMA32, 
#endif 
[* 
* 常 规 内 存 访 问 区 域 由 ZONE NORMAL 标识 。 如 果 DMA 设备 可 以 
* 在 此 区 域 作 内 存 访问 ， 也 可 以 使 用 本 区 域 . 
*/ 
ZONE_NORMAL, 
#ifdef CONFIG HIGHMEM 
[* 
* 高 端 内 存 区域 用 ZONE, HIGHMEM 标识 ， 该 区 域 无 法 从 内 核 虚拟 地 址 
* 空 间 直 接 作 线性 映射 ， 所 以 为 访问 该 区 域 必 须 经 内 核 作 特 殊 的 页 映射 。 
* 比 如 在 这 86 体系 上 ， 内 核 空间 1GB， 除 去 其 他 一 些 开销 ， 能 对 物理 
+ 地 赴 进 行 强 性 映射 的 空间 大 约 只 有 896MB。 此 时 高 于 896MB 以 上 的 物理 
* 地 址 空间 就 叫 ZONE_HIGHMEM IG. 
中 | 
ZONE_HIGHMEML 
#Hendif 
ZONE_MOVABLE, 
__MAX_NR_ ZONES 


3.1.3 内存 页 


内 存 页 是 物理 内 存 小 单位 ， 有 时 也 叫 页 帧 (page frame). Linux 会 为 系统 物理 内 
存 的 每 个 页 都 创建 一 个 struct page 对 象 ， 系 统 用 一 全 局 变量 struct page *mem map 来 存放 
所 有 物理 页 page 对 象 的 指针 。 页 的 大 小 取决 于 系统 中 的 内 存 管 理 单元 MMU (Memory 
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Management Unit)， 后 者 用 来 将 虚拟 空间 的 地 址 转化 为 物理 空间 地 址 。 鉴 于 4KB 大 小 的 物 
理 页 对 大 名 数 体系 架构 而 言 都 能 很 好 地 工作 ， 所 以 本 书 以 4 KB 页 面 为 主要 的 讨论 对 象 。 


3.2 ”页面 分 配器 (page allocator ) 






本 节 开 始 讨论 物理 内 存 的 分 配 ，Linux 系统 中 对 物理 内 存 进行 分 配 的 核心 建立 莉 页 面 级 
伙 侍 系统 之 上 。 在 系统 初始 化 期 间 ， 伙 伴 系统 负责 对 物理 内 存 页 面 进行 跟踪 ， 记 录 哪 到 
已 经 被 内 核 使 用 的 页 面 ， 哪 些 是 空闲 页 面 。 


有 了 伙伴 系统 就 可 以 让 系统 分 配 单个 物理 页 面 或 者 连续 的 几 个 物理 页 面 。 驱 动 程序 在 内 存 
分 配 时 如 果 需 要 分 配 比较 大 的 地 址 空间 , 可 以 在 这 一 层面 利用 页 面 分 配器 提供 的 接口 函数 。 
HEPA CAA) 只 能 分 配 2 的 整数 次 早 个 连续 的 物理 页 ， 返 回 值 的 形式 各 有 不 同 ， 
对 驱动 程序 员 而 言 ， 理 解 这 些 函 数 的 返回 值 其 实 更 重要 ， 本 章 后 面 会 详细 讨论 如 何 使 用 这 
些 返回 值 。 接 下 来 将 讨论 页 面 分 配 级 的 函数 ， 为 了 使 读者 能 更 好 地 理解 所 讨论 的 内 容 ， 图 
3-2 给 出 了 mem_map、 物 理 内 存 页 面 及 系统 虚拟 地 址 之 间 关 系 的 一 个 概略 的 示意 图 1; 


系统 虚拟 地 址 空间 
RE Ee 





1032 A 92 0n 









FIXADDR START 


PKMAP BASE 
VMALLOC END 


VMALLOC START 


图 3-2 mem_map、 物 理 页 面 及 虚 地 址 空间 关系 


图 中 ， 每 个 物理 页 面 都 有 一 个 struct page 对 象 与 之 对 应 。 根 据 内 存 使 用 及 内 核 虚 拟 地 址 空 
间 限 制 等 因素 ， 内 核 将 物理 内 存 分 为 三 个 区 2: ZONE DMA, ZONE NORMAL 和 
ZONE_HIGHMEM。 因 为 mem map 中 每 个 struct page 对 象 与 物理 页 面 之 间 严 格 的 一 一 对 
应 关系 ， 这 使 得 在 mem map 所 引导 的 struct page 实例 中 ， 事 实 上 也 形成 了 三 个 区 。 


1 此 图 基于 32 位 系统 的 3GB/1GB 的 经 典 布局 ， 如 果 是 64 位 系统 ， 内 存 的 布局 与 32 位 系统 会 有 很 大 不 同 ， 
2 鉴于 没有 配置 CONFIG_HIGHMEM 的 系统 并 不 常见 ， 所 以 本 书 不 考虑 这 种 情况 。 
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Linux 系统 初始 化 期 间 ， 会 将 虚拟 地 址 空间 的 物理 页 面 直接 映射 区 作 线 性 地 址 映射 到 
ZONE DMA 和 ZONE NORMAL, 这 意味 着 如 果 页 面 分 配器 所 分 配 的 页 面 猫 在 这 两 个 zone 
中 ， 那 么 对 应 的 内 核 虚 拟 地 址 到 物理 地 址 的 映射 的 页 目录 表 项 已 经 建立 ， 而 且 是 所 谓 的 线 
性 映射 ， 也 就 是 虚拟 地 址 和 物理 地 址 之 间 只 有 一 个 差 值 (PAGE OFFSET, t ER H RY 
0xC0000000). 


而 如 果 页 面 分 配器 所 分 配 的 页 面 落 在 ZONE HIGHMEM F, 那么 内 核 此 时 尚 没 有 对 该 页 面 
进行 地 址 映射 ， 因 此 ， 页 面 分 配器 的 调用 者 《比如 设备 驱动 程序 等 内 核 模块 ) 在 这 种 情况 
下 需要 做 的 事 是 ， 在 内 核 虚 拟 地 址 空间 的 动态 映射 区 或 者 固定 上 映射 区 分 配 一 个 虚拟 地 址 ， 
然后 映射 到 该 物理 页 面 上 。 当 然 内 核 提 供 了 实现 这 些 步骤 的 接口 函数 ， 内 核 横 块 只 要 调用 
相应 的 函数 就 可 以 了 。 


以 上 是 页 面 分 配器 的 大 致 工作 原理 ， 接 下 来 开始 具体 讨论 页 面 分 配器 所 提供 的 接口 国 数 ， 

无 论 是 对 UMA 还 是 NUMA 系统 而 言 ， 这 些 函 数 的 接口 是 完全 一 致 的 。 页 面 分 配器 函数 的 
核心 成 员 其 实 只 有 两 个 ， 分 别 是 alloc pages 和 get free pages， 其 他 的 一 些 函 数 则 是 在 这 
二 者 的 基础 上 通过 调整 某 些 参数 而 来 。 而 alloc_pages 和 get free pages 最 终 都 会 调用 到 
alloc_pages_node， 所 以 两 者 背后 的 实现 原理 完全 一 样 ， 只 是 ”get free pages 不 能 在 高 端 内 
存 区 分 配 页 面 ， 此 外 两 者 返回 值 的 形式 也 有 所 区 别 。 


3.2.1 gfp_mask 


gfp mask 并 不 是 页 面 分 配器 函数 ， 而 只 是 这 些 页 面 分 配 函 数 中 一 个 重要 的 参数 ， 是 个 用 于 
控制 分 配 行为 的 掩 码 ， 并 可 以 告诉 内 核 应 该 到 哪个 zone 中 分 配 物 理 内 存 页 面 。 这 里 将 一 些 
W SLES) gfp mask 掩 码 含义 说 明 如 下 ， 然 后 重点 讨论 内 核 模块 中 使 用 最 多 的 GFP_KERNEL 
和 GFP_ATOMIC: 


<include/linux/gfp.h> 


本 


#define GFP_DMA ((__ force gfp t)OxOlu) 
#define  GFP HIGHMEM (( force gfp t)Ox02u) 
#define GFP_DMA32 ((__ force gfp_t)O0x04u) 
#define GFP MOVABLE ((__force gfp t)Ox08u) 
#define GFP WAIT ((__force gfp t)Ox10u) 
fdefine GFP HIGH (( force gfp t)Ox20u) 
#define  GFP IO (( force gfp t)0x40u) 
#define  GFP FS (( force gfp t)0x8Ou) 
define GFP COLD ((. force gfp t)Ox100u) 
#define GFP NOWARN ((__force gfp t)0x200u) 
#define GFP REPEAT ((__ force gfp_t)0x400u) 
#define GFP NOFAIL ((__force gfp t)0x800u) 


#define _GFP NORETRY ((_force gfp t)0x1000u) 
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#define GFP_COMP ((__force gfp t)Ux4000u) 

define GFP ZERO (( force gfp t)0x8000u) 

#define GFP NOMEMALLOC (( force gfp t)0x10000u) 

#define GFP HARDWALL (( force gfp t)0x20000u) 
__GFP DMA 


在 ZONE_DMA 标识 的 内 存 区 域 中 查找 空闲 页 。 
__GFP_HIGHMEM 

在 ZONE_HIGHMEM 标识 的 内 存 区 域 中 查找 空闲 页 。 
__GFP_DMA32 

在 ZONE_DMA32 标识 的 内 存 区 域 中 查找 空闲 页 。 
__GFP_MOVABLE 

内 核 将 分 配 的 物理 页 标记 为 可 移动 的 。 
__GFP_WAIT 


当前 正在 回 内 核 申 请 页 分 配 的 进程 可 以 被 阻塞 ， 意 味 着 调度 器 可 以 在 此 请 求 期 间 调度 
为 外 一 个 进程 执行 。 


. GFP HIGH 


内 核 允 许 使 用 紧急 分 配 链表 中 的 保留 内 存 页 。 该 请 求 必 须 以 原子 方式 完成 ， 意 味 着 请 
求 过程 不 允许 被 中 断 。 


__GFP_IO 
内 核 在 查找 空闲 页 的 过 程 中 可 以 进行 VO 操作 ， 如 此 内 核 可 以 将 换 出 的 页 写 到 硬盘 。 
GFP FS 
查找 空闲 页 的 过 程 中 允许 执行 文件 系统 相关 操作 。 
__GFP_COLD 
从 非 组 存 的 “ 冷 页 ”中 分 配 。 
__GFP_NOWARN 
禁止 分 配 失败 时 的 告警 。 
__GFP_REPEAT 


如 果 分 配 行为 失败 ， 可 以 自动 尝试 再 次 分 配 。 尝 试 若干 次 后 会 终止 。 
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__GFP_NOFAIL 


分 配 失 败 后 一 直 重 试 ， 直 到 分 配 成 功 为 止 ， 分 配 函 数 的 调用 者 无 法 处 理 分 配 失 败 的 情 
形 。 根据 2.6.39 版 本 内 核 中 的 源码 注释 (_GFP NOFAIL is not to be used in new code.)， 以 
后 新 代码 将 不 再 使 用 该 掩 码 。 


__GFP_NORETRY 

如 果 分 配 失 败 ， 不 会 进行 重 试 操作 。 
__GFP_COMP 

增加 复合 页 元 数据 。 
__GFP_ZERO 

用 0 填充 成 功 分 配 出 来 的 物理 页 。 
__GFP_NOMEMALLOC 

As BE AE FAC BR RE at 2 RO A B kB DER. 
__GFP_HARDWALL 

只 能 在 当前 进程 允许 运行 的 各 个 CPU 所 关联 的 节点 分 配 内 存 。 该 标志 只 有 在 NUMA 
系统 上 才 有 意义 。 


通常 意义 上 《并 非 严 格 规定 )， 这 些 以 ” COTTGLBS GFP 掩 码 只 限于 在 内 存 管理 组 件 内 部 
的 代码 使 用 ， 对 于 提供 给 外 部 的 接口 ， 比 如 驱动 程序 中 所 使 用 的 页 面 分 配 函 数 ，gfp_mask 
掩 码 以 “GFP_” 的 形式 出 现 ， 而 这 些 掩 码 基 本 上 就 是 上 面 提 到 的 扒 码 的 组 合 ， 例 如 内 核 为 
外 部 模块 提供 的 最 党 使 用 的 几 个 掩 码 如 下 : 


<include/linux/gfp.h> 


Eod. E. RO RS SRP GR AL di cL cR meee Gk WE WE d NE Go Gh d EJ El ND E KR A GE cA FO GR CE E Ho Gb cL OR 0» o WD Go ED dà db WS dn dà di e e dA G4 oH o Rod ode Bo oEe ode Lo Roda (de o omm omm omo AR oo omo oo nmm oo momo momo oe 


#define GFP. ATOMIC (. GFP HIGH) 

#define GFP_NOIO (__GFP_WAIT) 

#idefine GFP. NOFS (_GFP WAIT| GFP IO) 

#define GFP. KERNEL (_GFP WAIT| GFP IO| : GFP FS) 

#define GFP USER - ( GFP WAIT| GFP IO| GFP FS| GFP HARDWALL) 


#define GFP HIGHUSER  (. GFP WAIT| GFP IO|. GFP FS| GFP HARDWALL |^ 
. GFP HIGHMEM) 
#tdefine GFP. DMA __GFP_DMA 


GFP_ATOMIC 


内 核 模 块 中 最 常 使 用 的 掩 码 之 一 ， 用 于 原子 分 配 ， 也 是 上 面 几 个 掩 码 中 唯一 不 带 
. GFP WAIT 的 。 此 掩 码 告诉 页 面 分 配器 ， 在 分 配 内 存 页 时 ， 绝 对 不 能 中 断 当 前 进程 或 者 
把 当前 进程 移出 调度 器 。 必 要 的 情况 下 可 以 使 用 仅 限 紧急 情况 使 用 的 保留 内 存 页 。 在 驱动 
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程序 中 ， 一 般 在 中 断 处 理 例 程 或 者 非 进 程 上 下 文 的 代码 中 使 用 GFP_ATOMIC 掩 码 进 行 
存 分 配 ， 因 为 这 两 种 情况 下 分 配 都 必须 保证 当前 进程 不 能 睡 虐 。 
-一 vv 





GFP KERNEL 


内 核 模 块 中 最 常 使 用 的 掩 码 之 一 ， 带 有 该 掩 码 的 内 存 分 配 可 能 导致 当前 进程 进入 睡眠 


GFP USER 
用 于 为 用 户 空 间 分 配 内 存 页 ， 可 能 引起 进程 的 体 眠 。 


GFP NOIO 
GFP NOFS 


Mir GFP WAIT， 因 此 可 以 被 中 断 。 前 者 在 分 配 过 程 中 禁止 VO 操作 ， 后 者 则 是 
禁止 文件 系统 相关 的 函数 调用 。 


GFP_HIGHUSER 
Xj GFP_USER 的 一 个 扩展 ， 可 以 使 用 非 线性 映射 的 高 端 内 存 。 
GFP_DMA 


限制 页 面 分 配器 只 能 在 ZONE DMA 域 中 分 配 空闲 物理 页 面 ， 用 于 分 配 适 用 于 DMA 
绥 冲 区 的 内 存 。 


WFO ETEIS, 内 核 模 块 开发 人 员 其 实 更 关心 的 是 页 面 分 配器 将 到 哪个 域 中 分 配 物 理 页 面 ， 
在 页 面 分 配 过程 中 这 实际 上 是 由 gfp_zone 函数 根据 上 述 掩 码 来 指定 , 如 果 没 有 在 gfp_mask 
中 明确 指定 _GFP DMA 或 者 是 GFP _ HIGHMEM， 那 么 默认 是 在 ZONE NORMAL 中 分 
配 物理 页 ， 如 果 ZONE NORMAL 中 现 有 空闲 页 不 足以 满足 当前 的 分 配 ， 那 么 页 分 配器 会 
到 ZONE DMA 域 中 查找 空闲 页 ， 而 不 会 到 ZONE HIGHMEM 中 查找 。 小结 一 下 ,这 里 的 
分 配 域 优先 次 序 是 : 


_GFP_HIGHMEM。 人 先 在 ZONE HIGHMEM 域 中 查找 空闲 页 ， 如 果 无 法 满足 当前 分 配 ， 
页 分 配器 将 回 退 到 ZONE NORMAL 域 中 继续 查找 ， 如 果 依 然 无 法 满足 当前 分 配 ， 分 配器 
将 回 退 到 ZONE DMA 域 ， 或 者 成 功 或 者 失败 。 


没有 ”GFP_NORMAL 这 样 的 撞 码 ， 但 是 前 面 已 经 提 到 ， 如 果 gfp mask 中 没有 明确 指定 
. GFP HIGHMEM 或 者 是 _GFP DMA, ， 默 认 就 相当 于 _GFP NORMAL, ， 优 先 在 
ZONE NORMAL 域 中 分 配 ， 其 次 是 ZONE DMA X. 


_GFP_DMA。 只 能 在 ZONE DMA 中 分 配 物理 页 面 ， 如 果 无 法 满足 ， 则 分 配 失败 。 
设备 驱动 程序 中 最 常 使 用 的 是 GFP_KERNEL 与 GFP_ATOMIC， 两 者 中 都 没有 明确 指定 内 
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存 域 的 标识 符 ， 这 意味 痢 使 用 它们 的 页 分 配器 只 能 在 ZONE. NORMAL 和 ZONE_DMA 中 
分 配 物理 页 面 。 


3.2.2 alloc_pages 
在 源码 中 ，alloc_pages 以 宏 的 形式 出 现 ， 其 定义 为 : 


<include/linux/gfp.h> 


#define alloc pages(gfp mask, order) ^ 
alloc pages node(numa node id(), gfp mask, order) 


static inline struct page *alloc pages node(int nid, gfp t gfp mask, 
unsigned int order) 
{ 


/* Unknown node is current node */ 
if (nid < 0) 
nid = numa node id(); 


retum — alloc pages(gfp mask, order, node zonelist(nid, gfp mask)); 
j 


. alloc pages 函数 负责 分 配 277" 个 连续 的 物理 页 面 并 返回 起 始 页 的 struct page 实例 。 在 调 
用 这 个 函数 时 ， 如 果 gfp mask 中 没有 明确 指定 _GFP_HIGHMEM， 那 么 分 配 的 物理 页 面 
必然 来 自 ZONE NORMAL 或 者 ZONE DMA, ， 由 于 这 两 个 域 中 内 核 已 经 在 初始 化 阶段 就 
为 之 建立 了 映射 关系 ， 所 以 内 核 模块 可 以 使 用 page address 来 获得 对 应 页 面 的 内 核 虚 拟 地 
hE KVA (Kernel Virtual Address)。 因 为 是 线性 映射 ， 所 以 此 时 获得 KVA 很 简单 ， 这 里 用 伪 
代码 将 page address 的 原理 大 致 表述 如 下 ; 

unsigned long pfn = (unsigned long)(page - mem map); /获得 页 帧 号 


unsigned long pg_pa= pfn << PAGE SHIFT, // 获 得 页 面 的 物理 地 址 
return (void*) va(pg pa); // 返 回 物理 页 面 对 应 的 KVA, KVA=PAGE_OFFSET+pg pa 


如 果 在 调用 alloc_pages 时 在 gfp mask 中 指定 了 _GFP_HIGHMEM， 那 么 页 分 配器 将 优先 

在 ZONE HIGHMEM 域 中 分 配 物理 页 ， 但 也 不 排除 因为 ZONE. HIGHMEM 没有 足够 的 空 

闲 页 导致 页 面 来 自 ZONE NORMAL 与 ZONE DMA 域 的 可 能 性 。 对 于 新 分 配 出 的 高 端 物 

理 页 面 ， 由 于 内 核 尚未 在 页 表 中 为 之 建立 映射 关系 ， 所 以 此 时 需要 ; 1. 在 内 核 的 动态 映射 

区 分 配 一 个 KVA; 2. 通 过 操作 页 表 , 将 1 中 的 KVA 映射 到 该 物理 页 面 上 。 内 核 为 此 提供 了 
一 个 函数 kmap: 


«arch/x86/mm/highmem 32.c» 


void *kmap(struct page *page) 
{ 
might sleep(); 
if (IPageHighMemí(page)) 
return page address(page); 
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return kmap_high(page); 
} 
Hc. BR BETTE PO) RER, ATO AERA EP TAS FP. BK, OS 
到 它 用 PageHighMem(page) K FIM RARER MOM OK B mm p. MRA, WA 
page address 来 返回 页 面 所 对 应 的 KVA, 7S UVa AY kmap high 在 内 核 虚 拟 地 址 空间 的 动 
态 映射 区 或 者 固定 映射 区 分 配 一 个 新 的 K VA. 并 将 其 映射 到 物理 页 面 上 ， 之 后 将 该 KVA JR 
回 给 调用 者 。 因 为 涉及 页 表 的 操作 ,所 以 从 高 端 内 存 分 配 物 理 页 对 系统 的 开销 是 比较 大 的 。 


与 kmap 行为 相反 的 函数 是 kunmap， 在 x86 平台 上 的 定义 如 下 : 


<arch/x86/mm/highmem_32.c> | 
void kunmap(struct page *page) 
{ 
if (in_interrupt()) 
BUG(); 
if (!PageHighMem(page)) 
return; 
kunmap_high(page); 
} 


函数 将 在 页 表 项 中 拆除 对 page 的 映射 ， 同 时 将 来 自动 态 映 射 区 中 的 KVA 释放 出 去 ， 这 样 
iX KVA 可 以 被 再 次 映射 到 别 的 物理 页 面 。 


内 核 针 对 kmap 函数 可 能 睡眠 的 情形 提供 了 另 一 个 备 选 的 函数 kmap_atomic, 该 函数 的 执行 
是 原子 的 ， 而 且 比 kmap 要 快 ， 此 处 不 再 详细 讨论 。 


男 一 个 页 面 分 配 函 数 是 alloc page， 只 用 于 分 配 一 个 物理 页 面 。alloc_page(gfp_mask) 是 
order=0 时 alloc pages 的 简化 形式 ， 只 分 配 单个 页 面 。 


如 果 系 统 中 没有 足够 的 空闲 页 面 来 满足 alloc_pages 的 分 配 ， 函 数 将 返回 NULL， 内 核 模块 
需要 仔细 检查 alloc pages 函数 的 返回 值 ， 以 作出 适当 的 应 对 。 


3.2.3 _ get free pages 
. get free pages 函数 在 内 核 源码 中 的 定义 为 : 


«mm/page alloc.c> 


cu oan a e iam WiC yy a S es n em Gy” e Gs ae "S V eS ee ep ee ee de ie a Game! RS ws pee” cam a ad qc tu e aes cc asse n n cR m 


unsigned long get free pages(gfp tgfp mask, unsigned int order) 
{ 
struct page *page; 


[* 
* get free pages() returns a 32-bit address, which cannot represent 
* a highmem page 
ui 
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VM BUG ON((gfp mask & |. GFP. HIGHMEM) != 0); 


page —alloc pages(gfp mask, order); 
if (!page) 
return 0; 
return (unsigned long) page address(page); 
} 


函数 负责 分 配 2°" 个 连续 的 物理 页 面 ， 返 回 起 始 页 面 所 在 内 核 线性 地 址 。 函 数 内 部 调用 
alloc pages 仙 责 实际 的 页 面 分 配 工作 。 从 函数 源码 中 可 以 看 到 ， get free pages 不 能 从 高 
端 内 存 中 分 配 物 理 页 ，VM_BUG_ON 宏 在 CONFIG DEBUG VM 定义 的 情形 下 可 以 捕捉 
到 这 一 错误 ， 如 果 CONFIG DEBUG VM 没有 定义 ， 且 调用 者 在 gfp mask 中 设置 了 
. GFP HIGHMEM 1íti3, 3E get free pages 返回 0。 在 正常 情况 下 ， _ get free pages 
从 低 端 内 存 区 中 分 配 2777 个 连续 物理 页 面 ， 并 通过 page address 来 返回 这 些 页 面 中 起 始 页 
面 的 内 核 线性 地 址 。 


如 果 内 核 模块 只 想 分 配 单个 物理 页 面 ， 那 么 可 以 使 用 _get free page(gfp mask)， 它 是 
order=0 时 get free pages 的 简化 形式 。 


3.2.4 get_zeroed_page 


get zeroed page 用 于 分 配 一 个 物理 页 同时 将 页 面 对 应 的 内 容 填充 为 0， 函 数 返 回 页 面 所 在 
的 内 核 线 性 地 址 。 其 定义 为 ; 


| unsigned long get_zeroe d  page(gfp t gfp mask) errr 
{ 
return — get free pages(gfp mask| GFP ZERO, 0); 
j 


3.2.5 _ get dma pages 


. get dma pages 用 于 从 ZONE  DMA 区 域 中 分 配 物 理 页 ， 返 回 页 面 所 在 线性 地 址 。 其 定义 
为 ; 


<include/linux/gfp.h> 


oe ee eS idu a da LE LM ee ee ee ee ee c eS a ee et ee ee ee ee ee ae ee daw ae ee ee 


"define get dma pages(gfp mask, order) ^ 
— get free pages((gfp mask) | GFP DMA, (order)) 


前 面 讨论 了 页 面 分 配器 提供 的 最 常用 的 接口 函数 ， 现 在 看 看 如 果 要 释放 这 些 被 分 配 的 页 应 
该 怎么 做 。 针 对 alloc_pages 和 get_free_pages， 内 核 提供 的 释放 函数 分 别 是 free. pages 
和 free pages， 其 背后 的 实现 原理 其 实 都 一 样 (free pages 内 部 最 终 调用 “free_pages 来 完 
成 页 面 的 释放 工作 )， 只 不 过 在 函数 的 原型 定义 方面 有 所 区 分 。 _free_pages 的 定义 是 ; 
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<mm/page_alloc.c> Tee 
void free pages(struct page *page, unsigned int order) 
{ 
if (put page testzero(page)) { 
if (order == 0) 
free_hot_cold_page(page, 0); 
else 
. free pages ok(page, order); 


} 


调用 ”free pages hj, BX page 应 该 是 由 alloc pages 返回 的 page RIK. order 是 分 配 
阶 ，alloc pages 和 free pages 应 该 一 致 。 


而 free pages 的 定义 则 是 ; 


<mm/page_alloc.c> 
void free pages(unsigned long addr, unsigned int order) 
{ 
if (addr !— 0) { 
VM BUG ON(!virt addr valid((void *)addr)); 
. free pages(virt to page((void *)addr), order); 


} 
调用 free pages 时， 参数 addr 应 该 是 ”get free pages 返回 的 内 核 线 性 虚拟 地 址 。 


3.3 slab 分 配器 (slab allocator ) 


上 节 提 到 的 页 面 分 配器 用 于 连续 物理 页 面 的 分 配 ， 驱 动 程序 中 可 以 使 用 这 些 函 数 来 分 配 一 
大 块 连续 的 内 存 空间 。 然 而 只 是 有 页 面 级 的 内 存 分 配 函 数 还 不 够 ， 因 为 很 多 情况 下 我 们 和 需 
要 分 配 比 4 KB 要 小 很 多 的 物理 地 址 室 间 ， 比 如 只 有 几 十 或 者 几 百 个 字 节 ， 如 果 对 这 样 的 
地 址 空间 需求 也 分 配 一 个 完整 的 物理 页 ， 显 然 会 对 物理 内 存 的 使 用 造成 巨大 浪费 。 基 于 这 
一 需求 ，Linux 系统 在 物理 页 分 配 的 基础 上 上 实现 了 对 更 小 内 存 空间 进行 管理 的 slab, slob 和 
slub 分 配器 。slab 是 Linux 内 核 最早 推 出 的 小 内 存 分 配方 案 ，slob 和 slub 分 配器 则 是 Linux 
2.6 内 核 开发 期 间 新 增 的 slab 分 配器 的 替代 品 , 主要 针对 大 型 系统 和 舱 入 式 系统 。 本 书 并 不 
会 详细 讨论 这 些 分 配器 的 具体 实现 细节 ， 所 以 下 文中 将 slab. slob 和 slub 统称 slab 分 配器 。 


slab 分 配器 的 原理 是 很 简单 的 ， 但 是 具体 到 代码 层面 ， 由 于 牵涉 到 多 方面 的 考虑 ， 包 括 最 
大 兼容 性 、 优 化 以 及 调试 等 ， 这 部 分 代码 相当 烦 元 上 涩 。 本 书 因为 是 从 驱动 程序 的 角度 出 
发 ， 所 以 会 侧重 于 驱动 程序 使 用 的 内 存 分 配 的 接口 函数 方面 ， 对 这 部 分 内 容 只 需要 在 相对 
高 点 的 层面 了 解 slab 分 配器 的 实现 思想 就 足够 了 。 
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slab 分 配器 的 基本 思想 是 ， 先 利用 页 面 分 配器 分 配 出 单个 或 者 一 组 连续 的 物理 页 面 ， 然 后 
在 此 基础 上 将 整 块 页 面 分 割 成 多 个 相等 的 小 内 存单 元 ， 以 满足 小 内 存 空间 分 配 的 需要 。 当 
然 ， 为 了 有 效 地 管理 这 些小 的 内 存单 元 并 保证 极 高 的 内 存 使 用 速度 和 效率 ， 内 核 代码 的 复 
杂 度 要 远 远 超出 其 基本 思想 所 展现 的 面 驶 。 但 是 这 并 不 影响 我 们 以 框架 的 形式 来 揭示 这 些 
代码 背后 最 实质 性 的 东西 : 抛 开 烦 元 的 细节 ， 以 粗 线条 的 形式 勾勒 出 slab 分 配器 的 主干 部 
2. 


3.3.1 管理 slab 的 数据 结构 


为 了 对 slab 进行 管理 ,内 核 必 须 定 义 相 关 的 数据 结构 , 其 中 最 重要 的 两 个 数据 结构 是 struct 
kmem cache 和 struct slab， 这 两 个 数据 结构 是 slab 分 配器 的 基石 ， 要 了 解 清楚 slab 分 配器 
的 架构 原理 ， 必 须要 了 解 这 两 个 数据 结构 的 具体 用 途 ， 


在 Linux 内 核 源 码 中 ， 这 两 个 数据 结构 定义 如 下 (为 了 突显 slab 分 配器 的 框架 结构 ， 删 除 


Q struct kmem cache 


"e <include/linux/slab_def.h> 

struct kmem_cache { l 

/* 1) per-cpu data, touched during every alloc/free */ 
struct array cache *array[NR_CPUS]; 

/* 2) Cache tunables. Protected by cache chain mutex */ 
unsigned int batchcount; 
unsigned int limit; 
unsigned int shared; 


E omé umo Rm EE WES P e RE eas uec eei sm ees ED Ue o Hd CAU C URS RS SERA Ems = E puo cep Eme Ee e muy 


unsigned int buffer size; 
u32 reciprocal buffer size; 
/* 3) touched by every alloc & free from the backend */ 


unsigned int flags; /* constant flags */ 
unsigned int num; /* # of objs per slab */ 


/* 4) cache grow/shrink */ 
/* order of pgs per slab (2^n) */ 
unsigned int gfporder; 


/* force GFP flags, e.g. GFP DMA */ 
gfp t gfpflags; 


size t colour; /* cache colouring range */ 
unsigned int colour off; /* colour offset */ 
struct kmem cache *slabp cache; 
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unsigned int slab size; 
unsigned int dflags; /* dynamic flags */ 


/* constructor func */ 
void (*ctorXvoid *obj); 


/* 5) cache creation/removal */ 
const char *name; 
struct list head next; 


[* 
* We put nodelists[] at the end of kmem cache, because we want to size 
* this array to nr node ids slots instead of MAX NUMNODES 
* (see kmem cache | init()) 
* We still use [MAX NUMNODES] and not [1] or [0] because cache cache 
* is statically defined, so we reserve the max number of nodes. 
"7 

struct kmem_list3 *nodelists[MAX NUMNODES]: 

[* 
* Do not add fields after nodelists[] 
ui 

E 


该 结构 中 的 最 后 一 个 成 员 struct kmem list3 的 定义 为 ; 


«mm/slab.c» 


("a ovo nn 


struct kmem list3 | 
struct list head slabs partial; /* partial list first, better asm code */ 
struct list head slabs full; 
struct list head slabs free; 
unsigned long free objects; 
unsigned int free limit; 
unsigned int colour next; /* Per-node cache coloring */ 
spinlock tlist lock; 
struct array cache *shared; /* shared per node */ 
struct array cache **alien; — /* on other nodes */ 
unsigned long next reap; /* updated without locking */ 
int free touched; /* updated without locking */ 

h 

O struct slab 


<mm/slab.c> 


-mm 


struct slab { 
struct list head list; 
unsigned long colouroff; 
void *s mem; /* including colour offset */ 
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unsigned int inuse; /* num of objs active in slab */ 
kmem, bufctl t free; 
unsigned short nodeid; 

I 


上 述 结构 中 一 些 常 见 的 成 员 变量 说 明 如 下 : 
unsigned int gfporder 
指明 该 kmem cache 中 每 个 slab 占用 的 页 面 数量 ， 为 28er ATL. 
gfp t gfpflags 
影 啊 遂 过 伙伴 系统 寻找 空 亲 页 时 的 行为 ， 见 本 章 前 面 “ 页 面 分 配器 ”一 节 。 
const char *name 
kmem cache 的 名 字 ， 会 寻 出 到 /proc/slabinfo P. 
struct list_head next 
将 该 kmem cache 加 入 到 cache chain 链表 中 。 
void (*ctor)(void *obj) 


构造 函数 。 当 在 kmem cache 中 分 配 一 个 新 的 slab 时 ， 用 来 初始 化 slab 中 的 所 有 内 存 
WR. 


struct list_head slabs_partial 

将 kmem cache ATA BU2E 42 B slab 加 入 到 该 链表 中 。 
struct list head slabs full 

将 kmem cache 中 所 有 已 经 满员 的 slab 加 入 到 该 链表 中 。 
struct list_head slabs free 

将 kmem cache 中 所 有 完全 空闲 的 slab 加 入 到 该 链表 中 


为 了 让 读者 更 好 地 理解 后 面 要 讲述 的 东西 ， 先 来 看 一 张 描 述 slab 分 配器 实现 原理 的 框架 图 
《图 3-3). 


struct kmem_cache 和 struct slab 在 一 个 slab 分 配器 中 形成 分 级 管理 ， 图 中 的 struct 
kmem cache 用 于 管理 其 下 所 有 的 struct slab, 它 通 过 三 个 链表 成 员 struct list head slabs full. 
struct list head slabs partial 和 struct list head slabs _ free， 将 其 下 所 有 struct slab 实例 加 入 链 
表 。 其 中 ，slabs_full 表示 链表 中 每 一 个 slab 所 在 的 物理 内 存 页 都 已 经 分 配 完 ，slabs_partial 
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表示 链表 中 每 一 个 slab 所 在 的 物理 内 存 页 还 有 部 分 空闲 空间 可 继续 用 于 分 配 ; slabs free 表 
示 链 表 中 每 一 个 slab 所 在 的 物理 内 存 页 完全 空闲 ， 没 有 分 配 任 何 内 存 对 象 。 


E DES Ae 
«-nex-» list head 
-«-————»- slabs full 


‘+ -—-+ slabs partial 
@.--.--.— slabs free 





& * ! 2 struct slab3c fi 


图 3-3 slab 分 配器 框架 图 


struct slab 结构 用 于 管理 一 块 连 续 的 物理 页 面 中 内 存 对 象 的 分 配 。 在 实际 的 代码 实现 中 ， 
struct slab 结构 的 实例 存放 位 置 有 两 种 :一 是 像 图 3-3 那样 ， 将 struct slab 的 实例 放 在 物理 
页 面 首页 的 开始 处 ; 二 是 放 在 物理 页 面 的 外 部 (通过 下 面 要 讨论 的 kmalloc 函数 来 分 配 struct 
slab 的 实例 )。 内 核 将 从 性 能 优化 的 角度 出 发 来 决定 slab 实例 的 存放 位 置 ， 源 码 中 的 
CFLGS OFF SLAB 宏 用 于 表示 slab 对 象 存放 于 外 部 。 


系统 中 的 slab 分 配器 并 不 是 孤立 的 ， 内 核 通过 一 个 全 局 的 双向 链表 cache chain 将 每 一 个 
slab 分 配器 链接 起 来 (通过 slab 分 配器 kmem_cache 中 的 next 成 员 , 后 者 是 个 struct list head 
型 变量 )。 


O cache cache 


从 图 3-3 可 以 看 出 ， 对 于 每 一 个 slab 分 配器 ， 都 需要 一 个 struct kmem cache 实例， 那么 ， 
在 slab 系统 尚未 完全 建立 起 来 时 ，kmem_cache 实例 所 在 的 空间 从 哪里 分 配 昵 ? 答案 是 系 
统 在 初始 化 期 间 提 供 了 一 个 特殊 的 slab 分 配器 cache cache， 专 门 用 来 分 配 struct 
kmem cache 47/8]. 


因为 cache cache 在 slab 系统 还 未 完备 时 就 被 创造 了 出 来 ， 所 以 这 个 struct kmem cache 结 
构 采 用 了 静态 内 存 分 配 的 方法 。 在 Linux 源码 中 ，cache_cache 定义 如 下 : 


<mmi/slab.c> 


static struct kmem cache cache cache = { 
-batchcount = 1, 
-limit = BOOT_CPUCACHE ENTRIES, 
Shared = 1, 
buffer size = sizeof(struct kmem cache), 
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name = "kmem cache", 


5 


这 个 最 早 的 kmem cache 有 个 不 错 的 名 字 "kmem_cache"， 告 诉 我 们 它 所 领衔 的 slab 分 配器 


专门 用 来 分 配 struct kmem cache 这 样 的 内 存 对 象 ，.buffer size = sizeof(struct kmem cache) 
则 为 这 个 论断 提供 了 进一步 的 佐证 3。 


因为 系统 在 初始 化 cache cache 时 伙伴 系统 已 经 完备 ， 所 以 如 果 采 用 把 struct slab 放 在 页 面 
内 部 的 方式 ， 这 个 slab 分 配器 就 可 以 工作 了 。 


O size cache 


很 多 书 中 把 cache sizes 叫做 通用 cache, Linux 源码 中 称 之 为 general cache 或 者 default cache, 
想到 前 面 的 cache_cache， 也 许 把 它 叫 做 size cache 更 确切 点 。 这 个 size cache 是 下 面 要 讨 
论 的 kmalloc 函数 实现 的 基础 。 


首先 看 几 个 数据 结构 的 定义 〈 这 些 定义 中 省 略 了 一 些 元 素 ， 笔 者 认为 略 去 这 些 元 素 不 会 影 
啊 读 者 对 size cache 机 制 的 理解 ): 


<include/linux/slab_def.h> 


Fs mi Ss re ux rr 


struct cache sizes { 


See SS SS et tT ttt eter he eene EAA 124 4 MN 


size_t cs size; 
struct kmem_cache *cs cachep; 
; 
*mm/slab.c- 
struct cache sizes malloc sizes[] = { 
{ .cs size = 32 }, 
{ .cs_size = 64 }, 
(cs size = 128 }, 
{ .cs_size = 256 }, 
{ .cs_size = 512 }, 
{ .cs_size = 1024}, 
{ .cs_size = 2048 }, 
{ .cs_size = 4096 }, 
{ .cs_size = 8192}, 
{ .cs_size = 16384}, 
{ .cS_size = 32768}, 
{ .cs size = 65536}, 
{ .cs_size = 131072}, 


{ .cs_size=~OUL }, 


3 当然 在 实际 的 代码 当中 ， 因 为 考虑 到 人 性 能 等 方面 的 因素 ， buffer size 等 一 些 成 员 会 在 系统 初始 化 期 间 通 过 调用 
kmem cache init 咀 数 被 重新 初始 化 一 遍 。 
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h 
在 系统 初始 化 期 间 , 内 核 委托 kmem cache. init ASOR malloc sizes 数组 , od v SET ICR. 
都 调用 kmem cache create 函数 在 cache. cache 中 分 配 一 个 struct kmem cache 实例 , 并 将 实 
例 所 在 的 地 址 存放 在 元 素 的 cs_cachep 变量 中 ， 核 心 代 码 如 下 : 


<mm/slab.c> 


ee ee ee Lok 4. E. Ro H.BOWBO H. Ro CL NES € Ro o GR s^ c A Bo €- € o" "ou oco o "-o- vos xom - 


void — init kmem cache init(void) 


{ 


struct cache sizes “sizes = malloc sizes; 
struct cache_names *names = cache_names; 


while (sizes->cs_size != ULONG MAX) [ 
/* 
* For performance, all the general caches are L1 aligned. 
* This should be particularly beneficial on SMP boxes, as it 
* eliminates "false sharing". 
* Mote for systems short on memory removing the alignment will 
* allow tighter packing of the smaller caches. 
"f 
if (!sizes->cs_cachep) { 
sizes->cs_cachep = kmem_cache_create(names->name, 
sizes->cs_ size, 
ARCH KMALLOC MINALIGN, 
ARCH KMALLOC FLAGS|SLAB PANIC, 
NULL); 
} 
#ifdef CONFIG_ZONE DMA 
sizes->cs dmacachep = kmem cache create( 
names->name dma, 
sizes-^cs size, 
ARCH KMALLOC MINALIGN, 
ARCH KMALLOC FLAGS|SLAB CACHE DMA| 
SLAB PANIC, 
NULL); 
#endif 


这 段 代 码 实 现 的 功能 非常 明显 ， 在 while 循环 中 遍历 malloc sizes 数组 ， 对 每 一 元 素 调 用 
kmem cache create 图 数 创建 kmem_cache 对 象 。 


如 此 ， 系 统 中 的 size_cache 在 初始 化 完成 后 的 形态 将 如 图 3-4 所 示 : 
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malloc sizes[] 





"| cs_size=4194304 


cs cachep cs cachep cs cachep 









kmem cache 
site sul : ‘slabs free 
E fd 


l 
,Slabs partial 


+ 





图 3-4 size cache 的 初始 化 


图 中 对 应 malloc_sizes 数组 中 的 每 个 元 素 , 都 产生 了 一 个 slab 分 配器 用 以 分 配 大 小 为 cs_size 
的 内 存 空 间 。 可 以 看 到 ， 初 始 化 完成 后 ， 因 为 还 没有 在 其 上 进行 内 存 分 配 ， 所 以 还 没有 slab 
HRE, kmem cache 中 的 slabs full. slabs partial 和 slabs free 三 个 链表 指针 都 为 空 。 此 
种 情况 将 一 直 延 续 到 有 内 核 模块 调用 kmalloc 函数 。 


3.3.2 kmalloc 5 kzalloc 


kmalloc PUE: S oF FP HP EFA E e RO 1 P3 PP, 它 分 配 出 来 的 内 存 空 间 在 物理 上 
是 连续 的 ， 函 数 不 负责 把 分 配 出 的 内 存 空 间 中 的 内 容 清 零 ， 换 言 之 ， 分 配 出 来 的 内 存 空 间 
保留 有 原来 的 数据 。kmalioc 函数 的 原型 为 


void *kmalloc(size t size, gfp t flags) 


参数 size 用 来 表示 想 要 分 配 的 内 存 空间 的 大 小 ，flags 是 分 配 掩 码 ， 同 前 面 讨论 的 页 面 分 配 
器 中 的 GFP 掩 码 完 全 一 样 ， 扒 码 会 影响 到 伙伴 系统 对 空闲 内 存 页 的 查找 行为 。 


这 个 函数 建立 在 slab 分 配器 基础 之 上 ， 它 的 实现 主要 围绕 size cache 展开 。 虽 然 在 实际 的 
Linux 源码 中 ， 项 数 的 实现 比较 复杂 ， 但 是 我 们 可 以 用 下 面 这 段 简明 的 代码 来 揭示 kmalloc 
函数 的 实现 原理 ， 改 写 后 的 代码 突显 了 kmalloc 函数 的 主体 脉络 : 


void * kmalloc(size t size, int flags) 


{ 
struct cache_sizes *csizep = malloc_sizes; 
struct kmem_cache *cachep; 


while (size > csizep->cs_size) 
csizept+; 


cachep = csizep->cs_cachep 
return kmem cache alloc(cachep, flags); 
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} 


函数 利用 参数 size 在 malloc_sizes 数组 中 查找 ， 目 的 是 找到 在 所 有 大 于 等 于 它 的 数列 中 的 
最 小 值 。 简 单 来 说 ， 假 设 size=20， 那 么 cs size=32 的 元 素 满足 需求 ， 如 果 size-238, AA 
cs_size=256 满足 需求 。 这 点 很 容易 理解 : 分配 出 的 内 存 对 象 必 须 够 大 才能 满足 分 配 要 求 ， 
但 又 不 能 太太 ， 理 则 会 造成 内 存 资源 的 浪费 。 


找到 了 这 样 一 个 数组 元 素 之 后 ， 也 就 获得 了 该 元 素 所 对 应 的 slab 分 配器 的 kmem cache 对 
$& cachep〔 这 些 对 得 早 在 系统 初始 化 期 间 就 已 经 分 配 好 ， 详 见 上 一 节 )。 


最 后 函数 调用 kmem cache alloc 函数 在 cachep 领衔 的 slab 分 配器 中 进行 内 存 的 分 配 , 对 于 
kmem cache alloc 函数 而 言 ， 大 部 分 情况 下 ， 它 都 会 返回 cachep 所 对 应 的 slab 分 配器 中 一 
个 空 采 的 内 存 对 象 。 但 是 ， 万 一 分 配器 中 已 经 没有 这 样 的 空闲 内 存 对 象 可 用 ， 则 必须 新 建 
一 个 stab， 这 意味 着 slab 分 配器 需要 利用 下 层 的 页 面 分 配器 来 分 配 一 段 新 的 物理 页 面 ， 此 
时 发 生 的 调用 链 是 : _ cache alloc()O do cache_alloc()>cache alloc refill) 
cache_grow()>kmem_getpages()>alloc_pages_exact_node()>__alloc_pages(). 可 以 看 到 在 这 
种 情况 下 ，slab 分 配器 最 终 会 调用 alloc pages 去 分 配 2°" 个 连续 的 物理 页 面 。 


在 设备 驱动 程序 等 内 核 模块 中 调用 kmalloc 函数 时 ， 最 后 一 个 参数 最 常见 的 就 是 
GFP KERNEL 和 GFP_ATOMIC， 前 面 讨论 过 ， 这 两 个 标志 都 会 使 得 页 面 分 配器 在 低 端 内 
存 域 中 分 配 物 理 页 面 。 读 者 也 许 会 好 奇 ， 如 果 调 用 kmalloc 时 最 后 一 个 参数 是 
_GFP_HIGHMEM，_ alloc_pages0) 会 到 高 端 内 存 区 去 分 配 页 面 吗 ? 答案 是 否定 的 。 对 于 
slab 分 配器 而 言 ， 它 只 能 在 低 端 内 存 区 分 配 物理 页 面 。 对 应 的 代码 来 自 上 述 调用 链 中 的 
cache_grow() 2: 


<mm/slab.c> 


-= emn um o gn o0 5 OG eee WB d. 4. E. E Smmm — — — eee — o D M ee ee ee ee p eK eK ee eR er eT eae ee ee ree ee ee r 


static int cache grow(struct kmem cache *cachep, 
gfp t flags, int nodeid, void *objp) 


{ 
gfp t local flags; 


BUG ON(flags & GFP_SLAB BUG MASK); 
local flags = flags & (GFP_CONSTRAINT_MASK|GFP RECLAIM MASK); 


if (!objp) 
objp = kmem getpages(cachep, local flags, nodeid); 
j 
E aA BZ GFP SLAB BUG MASK 定义 如 下 ; 


<include/linux/gfp.h> 


和 


/* Do not use these with a slab allocator */ 
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define GFP_SLAB_ BUG MASK( GFP DMA32| GFP HIGHMEM|- GFP BITS MASK) 


所 以 ,如 果 在 调用 kmalloc f£ — GFP. HIGHMEM 或 者 _GFP_DMA32 或 者 两 者 的 组 合 ， 
将 触发 代码 中 的 BUG_ON， 后 者 在 当前 Linux 源码 中 基本 等 同室 操作 ， 有 虽然 BUG ON 可 
能 不 会 触发 kmalloc 函数 在 执行 时 发 生 异 常 ， 但 是 这 里 体现 了 slab 分 配器 的 一 个 基本 设计 
原则 ; 底层 的 页 面 分 配 来 自 低 端 物理 内 存 区 域 。 更 进一步 地 ， 后 续 的 local flags = flags & 
(GFP CONSTRAINT MASK|GFP RECLAIM MASK) 将 会 清除 掉 GFP HIGHMEM 或 者 
__GFP_DMA32 标志 ， 所 以 即便 内 核 模块 使 用 kmalloc(64, GFP_HIGHMEM) 这 样 的 调用 
形式 来 分 配 内 人 存 ， 函 数 依然 会 返回 低 端 物理 内 存 页 面 所 对 应 的 线性 内 核 虚 拟 地 址 ， 而 不 是 
vmalloc 区 或 者 其 他 动态 映射 区 的 虚拟 地 址 。 


如 采 系 统 中 没有 在 够 多 的 内 存 ， 分 配 连续 的 物理 页 面 会 失败 ， 对 于 内 核 空间 而 言 ， 这 种 情 
况 非常 少见 , 但 并 非 不 可 能 。 如果 因 内 存 不 足 而 导致 最 终 的 分 配 失 败 ，kmalloc 函数 将 返回 
NULL 指针 。 所 以 函数 的 调用 者 需要 仔细 考量 kmalloc 函数 的 返回 值 以 做 出 正确 的 应 对 。 


kzalloc 函数 是 kmalloc 在 设置 了 __GFP_ZERO 情况 下 的 简化 版 本 ,kzalloc(size, flags) 就 等 于 
kmalloc(size, flags | ”GFP_ZERO)， 所 以 kzalloc HAH 0 来 填充 分 配 出 来 的 内 存 空间 。 


O kfree 函数 


kfree 函数 用 来 释放 kmalloc 分 配 的 内 存 ， 其 原型 为 
void kfree(const void *objp) 


如 同 讨论 kmalloc 函数 那样 ，kfree 国 数 的 实现 代码 可 以 简化 为 


void kfree(const void *objp) 


{ 
struct kmem_cache *c; 


struct page “page = virt to page(objp); 
C = (struct kmem cache *)page->lru.next; 


. cache free(c, (void *)objp); 
} 


函数 首先 根据 要 释放 内 存 的 指针 objp 调用 virt to page 函数 来 获得 objp 所 在 的 页 面 对 象 指 
针 *page( 如 果 objp 所 在 的 是 由 一 组 连续 物理 页 组 成 的 页 块 ， 那 么 virt to. page 返回 页 块 的 
BPO RM MRE; WER objp 所 在 的 是 单个 页 面 ， 那 么 就 返回 该 页 对 象 指针 )。 


virt to page 函数 的 原理 是 : 先 根 据 objp 获得 物理 页 帧 号 _pa(objp) >> PAGE SHIFT, 接着 
取得 该 页 帧 号 所 对 应 的 页 对 象 指针 *page = mem_map4 +(__pa(objp) >> PAGE. SHIFT)。 


4 mem map 是 系统 中 所 有 物理 内 存 页 对 象 所 构成 数组 的 首 地 址 :struct page *mem_map;. 
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页 对 象 所 在 slab 分 配器 的 kmem cache 指针 *c 保留 在 page->lru.next。 


由 上 面 通过 objp 来 获得 page 的 过 程 可 以 看 出 ，kfree 释放 的 内 存 只 能 来 自 于 kmalloc， 后 者 
实际 上 只 使 用 ZONE_ NORMAL 和 ZONE DMA 中 的 物理 页 。 


函数 最 后 调用 _cache_ free 函数 在 c 所 对 应 的 slab 分 配器 中 释放 内 存 对 象 。 


3.3.3 kmem_cache_create 与 kmem_cache_alloc 


提供 小 内 存 分 配 并 不 是 slab 分 配器 的 唯一 用 途 ， 在 某 些 情况 下 ， 有 些 内 核 横 块 可 能 需要 频 
繁 地 分 配 和 释放 相同 的 内 核对 象 。slab 分 配器 在 这 种 情况 下 可 以 作为 一 种 内 核对 象 的 缓存 ， 
XA slab 中 被 分 配 ， 当 释放 对 象 时 ，slab 分 配器 并 不 会 将 对 象 占用 的 空间 返回 给 伙伴 系 
统 ， 如 此 ， 当 再 次 分 配 该 对 象 时 ， 可 以 从 slab 中 直接 得 到 对 象 的 内 存 。 另 外 ， 由 于 slab 分 
配器 代码 经 过 精心 而 严密 的 设计 ， 充 分 利用 了 CPU 硬件 的 高 速 缓 存 ， 可 以 想象 ， 在 这 些 内 
核对 象 被 频繁 分 配 和 释放 的 应 用 场景 中 ， 利 用 slab 分 配器 的 这 种 优势 ， 可 以 大 大 提升 系统 
的 性 能 , 在 Linux 自身 的 内 核 源码 中 , 就 大 量 地 使 用 了 kmem cache create 来 创建 内 核对 象 
的 缓存 。 读 者 可 以 通过 /proc/slabinfo 查看 当前 系统 中 有 多 少 活动 的 kmem cache. 


相对 于 系统 已 经 定义 好 的 cache cache 与 size cache， 这 里 讨论 的 内 容 实际 上 是 内 核 模块 开 
发 者 如 何 定 制 满足 自己 特定 要 求 的 kmem cache 。 生 成 kmem cache 的 函数 是 
kmem_cache_create， 这 个 函数 在 前 面 讲述 size cache 时 已 经 提 到 过 ， 其 原型 如 下 : 

struct kmem_ cache * 


kmem_cache create (const char *name, size_t size, size_t align, 
unsigned long flags, void (*ctor)(void *)) 


参数 name 是 一 指向 字符 型 的 指针 ,用 来 表示 生成 的 kmem_cache 的 名 称 ， 该 名 称 会 导出 到 
/proc/slabinfo 文件 中 .。 需 要 注意 的 是 ,创建 出 的 kmem cache 对 象 会 用 一 个 指针 指向 该 name， 
因此 函数 的 调用 者 必须 确保 传人 入 的 name 指针 在 kmem_cache 的 整个 生存 期 内 都 有 效 , 否则 
可 能 会 导致 无 效 的 引用 。 


参数 size 用 来 指定 在 缓存 中 分 配对 象 的 大 小 。 

参数 align 用 于 指定 数据 对 齐 时 的 偏 移 量 。 内 核 代码 的 调用 中 这 个 参数 几乎 全 为 0， 也 即 它 
的 默认 值 。 

参数 flags 是 用 于 创建 kmem cache 时 的 标志 位 掩 码 ，0 表示 默认 值 。 驱 动 程序 中 常用 的 标 
志 位 有 : 


SLAB HWCACHE ALIGN 


”该 标志 位 要 求 slab 分 配器 中 的 所 有 内 存 对 象 跟 处 理 器 的 高 速 缓存 行 (cache line) HF, 
如 果 能 将 一 些 会 被 频繁 访问 的 对 象 放 入 到 高 速 缓存 行 中 ， 将 会 大 幅 提升 内 存 访问 性 能 。 但 


第 3 章 DRAG 109 


是 对 齐 的 要 求 会 在 对 象 与 对 象 之 间 造 成 无 用 的 填充 ， 从 而 造成 内 存 的 浪费 。 
SLAB CACHE DMA 


TE slab 3} Boss VÀ Hi tk TE SS SEXE PATE LE, EUH ERTE DMA ZONE 区 域 获取 内 
存 页 。 该 标志 位 在 配置 有 DMA ZONE 的 系统 上 ， 会 设置 GFP DMA. 


SLAB PANIC 
在 kmem cache 分 配 失 败 时 将 导致 系统 panic. 


最 后 一 个 参数 ctor 是 个 函数 指针 ， 称 为 kmem cache 的 构造 函数 。 如 果 函 数 的 调用 者 提供 
TEKA. AAS slab 分 配器 分 配 一 块 新 的 页 面 时 ， 会 对 该 页 面 中 的 每 个 内 存 对 铺 调 用 此 
处 奴 定 的 构造 图 数 。 所 以 此 处 的 构造 国 数 并 不 是 在 每 次 分 配 一 个 对 象 时 都 会 被 调用 。 


图 数 的 核心 是 通过 cache, cache 来 分 配 kmem cache TR. MC RAT. SORES 
kmem cache 的 指针 *cachep， 否 则 返回 NULL。 新 分 配 的 kmem cache 对 象 最终 会 被 加 入 到 
cache_chain 所 表示 的 链表 中 。 


成 功 创建 一 个 kmem cache 对 象 之 后 ， 就 可 以 通过 kmem cache alloc 在 kmem cache 中 分 
配对 象 了 。kmem_cache alloc 的 函数 原型 为 


void *kmem_cache_alloc(struct kmem_cache *cachep, gfp t flags) 
参数 cachep 就 是 kmem cache create 函数 返回 的 kmem cache 对 象 的 指针 。 


参数 flags 是 页 面 分 配器 中 使 用 的 掩 码 ， 前 面 在 讨论 页 分 配器 时 已 经 提 到 过 。 只 有 
kmem cache alloc 在 内 部 需要 与 页 分 配器 交互 时 ， 才 会 使 用 到 这 个 参数 。 


这 个 畏 数 的 大 体 实 现 原 理 在 kmalo 函数 一 节 中 己 经 讨论 过 ， 此 处 不 再 或 述 。 
O kmem cache destroy 与 kmem cache free 


kmem cache destroy 和 kmem cache free 是 与 kmem cache create 和 kmem cache alloc 相 
对 应 的 行为 相反 的 函数 。 


kmem cache destroy 负责 把 kmem cache create 创建 的 kmem cache WRAPS, m 
kmem cache free 则 负责 把 kmem cache alloc 分 配 的 对 象 释 放 掉 。 


kmem cache destroy 函数 原型 为 


void kmem cache destroy(struct kmem cache *cachep) 
参数 cachep 是 要 销毁 的 kmem cache 对 铺 的 指针 。 
K SALE JC cache chain 链表 中 摘 下 要 销毁 的 kmem cache 对 象 ， 在 此 之 后 调用 
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. cache shrink 函数 ， 以 确保 cachep 中 已 经 没有 尚未 被 释放 的 内 存 对 象 。 如 有 未 释放 的 内 
存 对 象 ， 函 数 将 不 会 销 席 kmem cache 对 象 ， 而 会 把 已 经 从 链表 中 摘 下 的 kmem_cache 对 象 
重新 加 入 到 链表 中 ,并 在 给 出 一 段 错 误 信 息 之 后 返回 到 调用 者 。 — cache shrink 函数 的 核心 
代码 如 下 : 


<mm/siab.c> 


olus Eum dE sis VÉ c cx. DE. SO ay Sa Sh ces A ADS ON, Tp ir a a — eens Sree, Ss Spe re oa oe s e ip ka ead re um ee s e Om m us ee pe emi i ges Ger Me amo E Eoi mum Cem EC Ee me Ems c ee mp m i iom 


static int — cache shrink(struct kmem cache *cachep) 


i 
int ret = 0; 
struct kmem_list3 *13 


ret += !list empty(&13-»slabs full) || 
'list empty(&l3-»slabs partial); 


return (ret ? ] : 0); 
} 


如 果 cachep 中 所 有 的 对 象 都 已 经 被 释 放 ， 图 数 最 终 通过 kmem cache free(&cache cache, 
cachep) 从 cache cache 中 释放 掉 cachep 所 指 回 的 kmem cache 对 象 。 对 于 驱动 程序 所 在 的 
内 核 模块 而 言 ， 如 果 代 和 码 中 使 用 了 kmem cache create 创建 的 缓存 来 分 配 内 存 ， 那 么 模块 
的 卸载 函数 将 是 调用 kmem cache destroy 的 最 佳 场合 。 

kmem cache free 函数 原型 为 


void kmem cache free(struct kmem_cache *cachep, void *objp) 
参数 cachep 是 kmem cache 对 象 的 指针 。obip 是 要 释放 的 内 存 对 象 的 指针 。 


图 数 会 根据 per-CPU 缓存 状态 来 尽量 做 最 优化 处 理 (内 核 总 是 挖空心思 去 干 这 种 事情 ， 还 
常常 乐此不疲 ),， 但 是 我 们 可 以 想象 free 一 个 在 kmem cache 中 的 内 存 对 象 ， 必 然 会 引起 一 
连 串 的 连锁 反应 :如 果 要 释放 的 对 象 怡 恰 是 该 slab 上 唯一 被 分 配 的 对 象 ， 那 么 由 于 它 的 释 
放 , 将 导致 整个 slab T, 这 种 情况 下 内 核 有 可 能 将 该 slab 所 对 应 的 页 面 释放 给 人 炙 伴 系统 ， 
同时 把 该 slab 从 kmem cache 对 象 的 slabs partial 链表 中 摘除 ， 更 新 对 应 的 管理 数据 。 


对 这 一 连 串 事件 的 处 理 ， 内 核 委 托 给 了 free block 函数 ， 本 书 不 再 讨论 该 函数 。 


相对 于 kmalloc 函数 ，kmem_cache_create 相关 函数 提供 给 了 开发 者 一 个 能 更 有 效 利用 内 存 
的 方法 。 


3.4 AAB ( mempool) 


设备 驱动 程序 对 内 存 池 的 使 用 机 会 已 经 非常 渺茫， 在 Linux 2.6.39 MARIS, UB 
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指 可 数 的 几 个 驱动 模块 还 在 使 用 内 存 池 ， 读 者 大 可 跳 过 本 和 节 【 不 会 对 手头 的 工作 有 任何 影 
响 )。 本 书 之 所 以 还 要 在 这 里 提 一 下 内 存 池 的 概念 ， 只 是 出 于 让 读者 增加 点 信息 量 的 考虑 ， 
MERA MAR aU SB " pel" PALES CAM CLM eK 
I] e RAISED, PDEA. 


A FFT AN A REAR es 预先 为 将 来 要 使 用 的 数据 对 象 〈 比 如 a» 分 配 几 个 内 存 空间 ， 把 这 
些 空间 地 址 存放 在 内 存 池 对 象 中 。 当 代码 真正 需要 为 a 分 配 空间 时 ， 正 常 调用 前 面 儿 节 提 
到 的 分 配 阔 数 ， 如 果 分 配 失 败 , 那么 此 时 便 可 从 内 存 池 中 取得 预先 分 配 好 的 a 的 地 址 空间 。 


所 以 内 存 池 的 概念 实际 上 没有 任何 新 鲜 的 东西 ， 其 分 配 函 数 的 核心 依然 是 前 面 介绍 过 的 那 
些 国 数 ， 其 对 实际 内 存 分 配 失败 时 的 补救 措施 也 只 限于 预先 分 配 的 那些 空间 。 


3.5 ”虚拟 内 存 的 管理 


主流 的 32 位 处 理 器 (比如 IA32、ARM 等 ) 能 寻 址 2° B 也 即 4 GB 大 小 的 地 址 空间 ， 这 部 
分 空间 称 为 虚拟 地 址 空间 。 从 虚拟 地 址 到 物理 地 址 的 转换 通过 处 理 器 中 的 一 个 部 件 内 存 管 
理 单元 MMU (Memory Management Unit) 完成 ， 为 完成 这 种 转变 ， 系 统 软件 比如 操作 系 
统 必须 建立 适当 的 页 表 。 


Linux 内 核 将 4 GB 的 虚拟 地 址 空间 划分 为 两 大 块 : 顶部 的 1 GB 空间 给 内 核 使 用 ， 称 为 内 
HTE: 底部 的 3GB 给 用 户 空 间 使 用 ， 称 为 用 户 空间 5。 内 核 代 码 中 用 PAGE OFFSET & 
来 标示 虚拟 地 址 空间 中 内 核 部 分 的 起 始 地 址 。 本 书 只 讨论 跟 驱 动 程序 关系 密切 的 1 GB 的 
内 核 空间 。 


为 了 讲述 下 面 的 vmalloc 相关 内 存 分 配 函 数 , 有 必要 先 讨论 一 下 内 核 是 如 何 使 用 1 GB 的 内 
核 空 间 的 。 


3.5.1 ”内核 虚 所 地 址 空间 构成 


内 核 会 将 1 GB 的 内 核 空 间 大 体 上 分 为 三 个 部 分 : 第 一 部 分 位 于 1 GB 空间 的 开头 ， 用 于 对 
系统 物理 内 存 的 直接 映射 (本 书 也 称 之 为 线性 映射 )， 内 核 用 全 局 变量 high memory 来 表示 
这 段 空间 的 上 界 ; 第 二 部 分 位 于 中 间 ， 主 要 用 于 vmalloc 函数 ， 本 书 称 之 为 “VM 区 ”或 者 
"vmalloc 区 ” 第 三 部 分 位 于 1 GB 空间 的 结尾 部 分 ， 用 于 特殊 映射 。 整 个 1 GB 空间 的 划 
分 构成 如 图 3-5 AAR: 


5 这 种 虚拟 地 址 空间 的 划分 通过 内 核 的 配置 选项 可 以 改变 ， 不 过 这 不 是 本 书 要 讨论 的 内 容 。 
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VMALLOC START VMALLOC END 
PAGE OFFSET high memory | 





物理 内 存 直接 映射 区 | vmalloc 区 
VMALLOC OFFSET 


图 3-5 ”内核 虚拟 地 址 空间 结构 图 


图 中 的 日 色 区 域 为 1 GB 虚拟 地 址 空间 中 的 “空洞 ” 空洞 部 分 不 作 任何 地 址 映射 ， 主 要 用 
做 安全 保护 ， 防 止 不 正确 的 越界 内 存 访 问 《 越 界 如 果 进 入 到 空洞 地 带 ， 因 为 此 处 没有 进行 
任何 形式 的 映射 ， 对 应 的 页 表 项 将 会 使 得 处 理 器 产生 一 个 异常 )。 





3.5.2 vmalloc 与 viree 


vmalloc 函数 也 是 内 核 模 块 会 使 用 到 的 一 个 内 存 分 配 函 数 , 它 的 特点 是 分 配 的 虚拟 地 址 空间 
是 连续 的 , 但 是 这 段 虚 拟 地 址 空间 所 映射 的 物理 地 址 可 能 是 不 连续 的 。vmalloc 函数 主要 对 
图 3-5 中 的 vmalloc 区 进行 操作 ， 它 返回 的 地 址 就 来 自 于 该 区 域 。 


在 驱动 程序 中 并 不 鼓励 使 用 vmalloc 函数 ， 这 主要 是 出 于 以 下 几 个 方面 的 考虑 ， 首先 ， 
vmalloc 的 实现 机 制 决 定 了 它 的 使 用 效率 没有 kmalloc 这 样 的 函数 高 ， 其 次 ， 在 某 些 体系 结 
构 比 如 x86 E, 因为 物理 内 存 通常 都 比较 大 , 这 使 得 vmalloc 区 域 相对 变 得 很 小 , 对 vmalloc 
的 调用 失败 的 可 能 性 增 大 。 当 然 在 能 入 式 领 域 ， 内 存 通常 都 比较 小 ， 这 个 问题 并 不 是 很 明 
i: 最 后 ，vmalloc 分 配 出 的 地 址 空间 在 物理 上 并 不 能 保证 是 连续 的 ， 这 对 那些 要 求 物 理 地 
址 空间 连续 的 设备 比如 DMA 造成 了 麻烦 。 


然而 ， 在 某 些 情况 下 ， 如 果 获 得 连续 物理 内 存 的 可 能 性 不 是 很 大 ， 那 么 可 以 通过 vmalloc 
来 用 不 连续 的 物理 内 存 组 装 出 一 块 连续 的 内 存 区 域 〈 在 虚拟 地 址 空间 )。 在 “内 核 模块 ”一 
章 中 看 到 的 模块 加 载 过 程 ， 就 使 用 了 vmalloc 来 为 模块 的 ELF 文件 数据 分 配 空间 ， 这 主要 
是 因为 模块 可 以 随时 被 加 载 进 系统 ,如果 系 统 运 行 了 很 长 的 时 间 而 且 模 块 的 ELF 文件 又 比 
较 大 ， 就 很 有 可 能 无 法 分 配 出 连续 的 物理 空间 来 容纳 ELF 文件 中 的 数据 ， 所 以 内 核 选择 用 
vmalloc 来 为 模块 分 配 空间 。 下 面 简单 讨论 vmalloc 函数 的 实现 原理 。 


vmalloc 函数 原型 为 
void *vmalloc(unsigned long size) 
vmalloc P& 3t AY) Sz El. Jes 88 n] fiij ARH HAR: 
(1) f£ vmalloc 区 分 配 出 一 段 连续 的 虚拟 内 存 区 域 。 
(2) 通过 伙伴 系统 获得 物理 页 。 
(3) 通过 对 页 表 的 操作 将 步骤 1 中 分 配 的 虚拟 内 存 映 射 到 步骤 2 中 获得 的 物理 页 上 。 
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在 内 核 具 体 的 代码 实现 上 ， 步 又 1 利用 红 黑 树 来 解决 vmalloc 区 中 动态 虚拟 内 存 块 的 分 配 
和 释放 。 对 于 vmalloc 区 中 每 一 个 分 配 出 来 的 虚拟 内 存 块 ， 内 核 用 struct vm struct 对 象 来 
表示 。struct vm struct 定义 如 下 : 


«include/linux/vmalloc.h- 


struct vm struct + 
struct vm struct  *next; 


void *addr; 

unsigned long Size; 
unsigned long flags; 
struct page **pages, 
unsigned int nr pages; 
unsigned long phys addr; 
void *caller; 


}; 


其 中 ，next 用 来 把 vmalloc 区 中 所 有 已 分 配 的 struct vm. struct 对 象 构 成 链表 ， 该 链表 的 表 
头 为 一 全 局 变量 struct vm. struct *vmlist. addr 为 对 应 虚拟 肉 存 块 的 起 始 地 址 ， 应 该 是 页 对 
Jr. size 为 虚拟 内 存 块 的 大 小 ， 总 是 页 面 大 小 的 整数 信 。flags 为 表示 当前 虚拟 内 存 块 映射 
特性 的 标志 ， 本 章 只 介绍 VM, ALLOC 和 VM IOREMAP， 余 下 的 标志 推迟 到 “内 存 映 射 
与 DMA” 一 章 再 讨论 ，VM_ALLOC 标志 表示 当前 虚拟 内 存 块 是 给 vmalloc 函数 使 用 ， 映 
射 的 是 实际 物理 内 存 CRAM); VM_IOREMAP 标志 表示 当前 虚拟 内 存 块 是 给 ioremap 相关 
函数 使 用 ， 映 射 的 是 WO 空间 地 址 ， 也 就 是 设备 内 存 。pages 是 被 映射 的 物理 内 存 页 面 所 形 
成 的 数组 首 地 址 。nr_pages 表示 映射 的 物理 页 的 数量 。 phys_addr 多 在 ioremap 函数 中 使 用 ， 
表示 映射 的 LO 空间 起 始 地 址 ， 页 对 齐 。 


这 一 步骤 中 需要 注意 的 是 ， 内 核 总 是 会 把 vmalloc 函数 的 参数 size 调整 到 页 对 齐 ， 同 时 会 
在 调整 后 的 数值 上 再 加 一 个 页 面 的 大 小 : 


size = PAGE ALIGN(size); 
size += PAGE SIZE; 


内 核 之 所 以 在 把 size 对 齐 到 页 面 大 小 之 后 青 加 上 一 个 页 面 的 大 小 ， 是 为 了 防止 可 能 出 现 的 
越界 访问 。 因 为 在 步骤 3 的 页 表 操 作 中 并 不 会 向 这 个 附加 在 末尾 的 虚拟 地 址 上 提交 实际 物 
理 页 面 ， 所 以 当 有 访问 进入 到 这 个 区 间 时 ， 处 理 器 将 会 产生 异常 。 此 处 的 原理 同 图 3-5 中 
的 “空洞 ”完全 一 样 。 


步骤 2 中 内 核 在 调用 伙伴 系统 获取 物理 内 存 页 时 ,使 用 了 GFP KERNEL | 
. GFP HIGHMEM 标志 ，GFP_KERNEL 意味 着 vmalloc 函数 在 执行 过 程 中 可 能 睡 卢 ， 因 
而 不 可 以 在 中 断 等 非 进 程 上 下 文中 调用 ， GFP HIGHMEM 标志 则 告诉 伙伴 系统 在 
ZONE HIGHMEM 区 中 查找 空闲 页 ,这 是 因为 ZONE NORMAL 区 中 的 物理 内 存 资源 非常 


114 RRA Linux 设备 驱动 程序 内 核 机 制 


宝贵 ,主要 留 给 kmalloc 这 类 函数 使 用 来 获得 连续 的 物理 内 存 页 面 ， 因 此 对 于 vmalloc 函数 
应 该 尽量 使 用 高 端的 物理 内 存 页 。 此 外 , 内核 在 分 配 物 理 页 时 使 用 alloc_page 或 者 是 order-0 
情形 下 的 alc pages node 函数 ， 这 意味 着 内 核 在 此 处 是 以 每 次 只 分 配 单个 页 面 的 形式 来 
完成 物理 页 的 分 配 ， 这 与 vmalloc 的 设计 初衷 是 完全 吻合 的 ， 用 来 分 配 大 块 内 存 但 无 须 保 
证 在 物理 内 存 空间 上 的 连续 性 。 

步骤 3 没有 特别 需要 注意 的 地 方 ， 唯 一 的 一 点 是 不 对 步骤 1 中 内 存 区 域 的 末尾 4 KB 大 小 
部 分 作 映 射 《步骤 2 中 当然 也 不 会 为 这 段 虚 拟 空 间 分 配 物理 页 ): 


<mm/vmalloc.c> | | 
int map vm area(struct vm struct *area, pgprot t prot, struct page ***pages) 
t 


unsigned long end = addr + area->size - PAGE, SIZE; /去 掉 末 尾 的 页 面 不 映射 


} 
图 3-6 展示 了 用 vmalloc 国 数 分 配 内 存 的 情形 。 图 中 在 vmalloc 区 中 分 配 出 来 的 虚拟 内 存 块 
通过 内 核 页 表 的 配置 之 后 ， 被 映射 到 了 高 端 内 存 区 中 两 个 离散 的 物理 页 面 205 和 273， 虐 
拟 内 存 块 的 最 后 一 个 页 面 没有 映射 到 实际 的 物理 页 上 ， 虽 在 对 可 能 出 现 的 越界 访问 起 保护 
作用 。 


VMALLOC START VMALLOC_END 







vmal lock. 


(1 个 页 面 大 小 ) 


|] 防止 越界 的 保护 区 





物理 地 址 空间 





ZONE_NORMAL ZONE_HIGHMEM 
图 3-6 vmalloc 的 页 面 映射 


PREX. vfree 用 来 释放 vmalloc 获得 的 虚拟 地 址 块 ， 它 执行 的 是 vmalloc 的 反 操作 ， 红 黑 树 算 
法 释放 vmalloc 生成 的 节点 ， 铺 除 内核 页 表 中 对 应 表 项 ， 调 用 伙伴 系统 一 页 一 页 地 释放 由 
vmalloc 映射 的 物理 页 ，kfree 掉 管理 数据 所 占用 的 内 存 。 

vfree 函数 原型 为 


void vfree(const void *addr) 
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3.5.3 ioremap 


ioremap Ex. CE) 是 体系 架构 相关 的 ， 其 函数 原型 基本 上 等 同 于 : 


void  iomem * ioremap(unsigned long phys addr, size t size) 


此 处 的 _iomem 的 作用 只 是 提醒 调用 者 返回 的 是 - jo 类 型 的 地 址 ， 如 同 user. — percpu 
一 样 ， 某 些 工 具 软 件 有 可 能 会 利用 这 些 定义 符 作 一 些 诸 如 代码 质量 等 方面 的 检查 。 


ioremap 国 数 及 其 变种 用 来 将 vmalloc 区 的 某 段 虚拟 内 存 块 映 射 到 IO 空间 ， 其 实现 原理 与 
vmalloc 函数 基本 上 完全 一 样 ， 都 是 通过 在 vmalloc 区 分 配 虚 拟 地 址 块 ， 然 后 修改 内 核 页 表 
的 方式 将 其 映射 到 设备 的 内 存 区 ， 也 就 是 设备 的 VO 地 址 空间 。 与 vmalloc 函数 不 同 的 是 ， 
ioremap 并 不 需要 通过 伙伴 系统 去 分 配 物 理 页 ,因为 ioremap 要 映射 的 目标 地 址 是 VO 空间 ， 
不 是 物理 内 存 。 


因为 IO 空间 在 不 同 的 体系 架构 上 有 不 同 的 解释 , 比如 IA32 架构 上 有 独立 于 内 存 访问 指令 
之 外 的 VO 指令 ，ARM 的 架构 上 则 没有 ， 所 以 在 函数 返回 地 址 的 使 用 上 ， 有 些 要 注意 的 地 
方 。 假 设 返 回 地 址 是 pVaddr， 对 于 有 专门 IO 指令 的 体系 ， 比 如 IA32， 不 能 直接 用 内 存 访 
问 的 方式 来 使 用 该 地 址 ，*pVaddr = 0x1234 是 错误 的 ， 应 该 使 用 readw(pVaddr)， 后 者 实际 
上 使 用 了 inw 指 令 , 这 是 IA32 架构 上 专门 的 WO 指令 ;而 在 ARM 处 理 器 上 ,*pVaddr = 0x1234 
则 是 完全 正确 的 。 因 此 ， 为 了 简化 不 同 的 架构 平台 代码 移植 工作 ， 对 于 ioremap 返回 的 地 
址 ， 应 该 统一 使 用 readb/writeb、readw/writew 这 样 的 室 ， 这 些 室 在 不 同 的 平台 上 会 展开 成 
架构 相关 的 代码 。 


实际 代码 中 ioremap 还 有 一 些 相 关 的 变 体 ， 包 括 ioremap nocache. ioremap cached 等 ， 这 
些 变 体 的 主要 功能 是 通过 加 入 一 些 映 射 标志 位 来 影响 相关 内 核 页 表 项 的 设置 ， 比 如 设备 驱 
动 程序 中 最 常用 的 ioremap_nocache， 就 是 通过 清除 页 表 项 中 的 C(ache) 标 志 5， 使 得 处 理 器 
在 访问 这 段 地 址 时 不 会 被 cache， 这 对 外 设 空间 的 地 址 是 非常 重要 的 。 


如 果 被 映射 的 LO 空间 不 再 使 用 ， 应 该 使 用 iounmap 函数 来 做 相关 的 清除 工作 ，iounmap 
函数 要 完成 的 工作 包括 将 vmalloc 区 中 分 配 的 虚拟 内 存 块 返还 给 vmalloc K, 清除 对 应 的 页 
表 页 目录 项 等 。 


3.6 per-CPU 变量 
本 来 per-CPU 变量 可 以 在 “ 互 斥 与 同步 ”一 章 中 介绍 ， 但 鉴于 其 实现 的 核心 部 分 在 于 对 这 


6 不 同 处 理 器 的 页 表 / 目 录 项 有 不 同 的 配置 形式 ， 具 体 可 参考 特定 处 理 器 的 开发 手册 。 
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些 变量 空间 的 分 配 和 使 用 上 《这 其 实 是 Linux 内 核 中 另 一 种 内 存 分 配 的 形式 ， 源 码 中 称 之 
为 percpu memory allocator)， 因 此 ， 本 章 前 面 提 供 的 上 下 艾 环境 是 最 适合 讨论 per-CPU © 
量 实现 机 制 的 地 方 ， 故 而 本 节 将 用 一 定 的 篇 幅 讨 论 一 些 其 内 部 的 实现 机 制 。 当 然 ， 对 
per-CPU 变量 的 使 用 上 上 ， 也 会 有 具体 的 案例 给 出 ， 并 在 此 基础 上 探讨 per-CPU 变量 与 互 斥 
问题 之 间 的 关联 。 


per-CPU 变量 是 Linux 内 核 中 一 个 非常 有 趣 的 特性 ， 它 为 系统 中 的 每 个 处 理 器 都 分 配 了 该 
变量 的 一 个 副本 。 这 样 做 的 好 处 是 ， 在 多 处 理 器 系统 中 ， 当 处 理 器 操作 属于 它 的 变量 副本 
时 ， 不 需要 考虑 与 其 他 处 理 器 竞争 的 问题 ， 同 时 该 副本 还 可 以 充分 利用 处 理 器 本 地 的 硬件 
绥 仔 以 提 融 访问 速度 。 然 而 读者 不 应 该 认为 只 要 使 用 的 是 per-CPU 变量 ， 在 并 发 访问 方面 
就 一 定 是 安全 的 ， 本 节 结 束 的 地 方 会 有 些 这 方面 的 思考 。 


基于 per-CPU 变量 的 以 上 特性 ， 其 最 典型 的 应 用 场合 是 在 统计 计数 方面 (为 此 内 核 源码 中 
专门 提供 了 基于 per-CPU 的 一 个 计数 器 实现 ， 感 兴趣 的 读者 可 参考 lib/percpu_counter.c). 

例如 在 网 络 系统 中 ， 内 核 需 要 跟踪 已 接收 到 的 各 类 数据 包 的 数量 ， 而 这 些 数量 在 系统 中 更 
新 的 频率 极 快 ， 每 秒 可 能 成 干 上 万 次 。 此 时 就 可 以 使 用 per-CPU 变量 ， 让 系统 中 每 个 处 理 
器 都 使 用 独 属 于 自己 的 该 变量 的 副本 , 这 样 在 变量 更 新 时 就 无 须 考虑 多 处 理 器 的 锁定 问题 ， 
可 以 提高 性 能 。 如 果 需 要 统计 出 系统 接收 数据 包 的 总 量 ， 只 要 将 各 处 理 器 副本 中 的 值 相 如 
BRI. 


下 面 通过 Linux 实际 代码 来 探究 per-CPU 变量 的 实现 机 制 (基于 SMP 系统 讨论 )。per-CPU 
变量 按照 存储 变量 的 空间 来 源 可 以 分 为 静态 per-CPU 变量 和 动态 per-CPU 变量 ， 前 者 的 存 
储 空 间 是 在 代码 编译 时 静态 分 配 的 ， 后 者 的 存储 空间 则 是 在 代码 的 执行 期 间 动 态 分 配 的 。 
先 讨论 静态 per-CPU 变量 。 总 体 上 说 ， 要 使 一 个 静态 per-CPU 变量 能 够 工作 ， 除 了 特别 的 
per-CPU 变量 声明 ， 还 必须 有 链接 脚本 和 相关 内 核 源码 的 配合 。 


3.6.1 静态 per- CPU 变量 的 声明 与 定义 


TE Linux 系统 中 声明 一 个 per-CPU 变量 的 方法 是 使 用 DECLARE, PER. CPU 宏 ， 相 关 定 义 
如 下 : 


<include/linux/percpu_defs.h> 
#define DECLARE PER_CPU (type, name) \ 
DECLARE PER CPU SECTION(type, name, "") 


#define DECLARE PER. CPU SECTION(type, name, sec) \ 
extern PCPU_ATTRS(sec) typeof (type) name 


#define PCPU_ATTRS(sec) \ 
. perepu attribute ((section(PER_CPU_BASE SECTION sec))) A 
PER CPU ATTRIBUTES 
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<include/asm-generic/percpu. h> 


—— ——————— ———— eee EIE 


#define PER CPU BASE, SECTION ".data.perepu" — 
上 面 的 定义 看 起 来 不 是 很 直 白 , 这 里 不 妨 用 一 个 具体 的 例子 来 看 看 上 面 的 宏 到 底 做 了 什么 ， 


比如 DECLARE PER CPU(int, dolphin);。 根 据 上 面 的 定义 ， 该 宏 在 多 处 理 器 系统 中 展开 之 
后 如 下 : 


extem percpu attribute ((section(".data..percpu"))) int dolphin; 


可 见 该 宏 在 源码 中 声明 了 一 个 变量 int dolphin, 该 变量 放 在 一 个 名 为 ".data..percpu" 的 section 
中 。 以 上 只 是 变量 的 声明 部 分 ， 定 义 部 分 要 用 宏 DEFINE PER CPU: 


<include/linux/percpu_defs.h> 


#define DEFINE PER. CPU (type, name) A 
DEFINE PER CPU SECTION (type, name, "") 


#define DEFINE PER CPU SECTION(type, name, sec) \ 
. PCPU ATTRS(sec) PER CPU DEF ATTRIBUTES \ 
. typeof (type) name 


相 比 于 DECLARE PER CPU, DEFINE PER CPU 只 是 去 掉 了 变量 声明 前 的 extem， 所 以 
DEFINE_PER_CPU(int, dolphin) 将 会 在 源码 中 定义 一 个 变量 : 


_percpu attribute  ((section(".data.percpu"))) int dolphin; 


看 了 以 上 per-CPU 变量 的 声明 和 定义 ， 似 乎 除了 把 变量 放 到 ".data..percpu"section 里 ， 和 其 
他 普通 变量 的 声明 与 定义 相 比 也 没有 什么 特别 之 处 。 但 既然 把 per-CPU 变量 放 到 了 
".data..percpu"section， 还 是 看 看 都 有 哪些 地 方 用 到 了 这 个 section. 


3.6.2 ”静态 per-CPU 变量 的 链接 脚本 
考察 内 核 的 链接 脚本 ， 对 于 per-CPU 变量 ， 发 现 有 如 下 相关 定义 ; 


<kernel/vmlinux.ids> 


[Fe = o ee om om et om om on -mr = sae ee E. e m mem 一 一 一 ~ 一 中 一 一 一 ~ -一 一 -一 一 一 一 一 上 -一 二 四 本 A C»DOW€" "oA OR OR c €" 6783 505 5 o —o- modu 


.= ALIGN((1 << 12); 
.data..percpu : AT(ADDR(.data..percpu) - 0xC0000000) 


__per_cpu_load=., 
. per cpu start = .; 
*(.data..percpu..first) 
*(.data..percpu..page aligned) 
*(.data..percpu) 
*(.data..percpu..shared aligned) 
. per cpu end .; 

} 

.= ALIGN((1 << 12)); 
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可 见 ， 内 核 在 编译 链接 时 会 把 所 有 静态 定义 的 per-CPU 变量 统一 放 到 ".data..percpu"section 
中 , 链接 器 生成 ”per cpu start 和 per cpu end 两 个 变量 来 表示 该 section 的 起 始 和 结束 地 
址 。 紧 接着 为 了 配合 链接 器 的 行为 ，Linux 内 核 源码 中 针对 以 上 的 链接 脚本 声明 了 如 下 的 
外 部 变量 : 


现在 ， 似 乎 已 万 事 具 备 ， 就 看 内 核 如 何 为 系统 中 的 每 个 CPU 产生 一 份 变量 的 副本 了 。 


3.6.3 setup per. cpu areas 函数 


前 面 提 到 用 DEFINE PER CPU 定义 的 变量 ,系统 中 的 每 个 CPU 都 拥有 该 变量 的 一 个 副本 。 
但 到 目前 为 止 ， 我 们 看 到 的 int dolphin 变量 也 只 在 “.data..percpu”section 中 才 有 一 份 ， 内 
核 如 何 让 系统 中 每 个 CPU 都 拥有 该 变量 的 一 个 副本 呢 ? 

答案 在 于 系统 初始 化 期 间 调用 的 setup per cpu areas 函数 7, 这 个 函数 不 但 会 完成 变量 副本 
的 生成 ， 而 且 会 对 per-CPU 变量 的 动态 分 配 机 制 进行 初始 化 。 

O 静态 per-CPU 变量 副本 的 产生 


图 3-7 大 体 上 勾画 了 这 一 过 程 ， 以 下 讨论 的 内 容 都 可 参考 该 图 ， 


Pi Bk di d E dai 





图 3-7 ”静态 per-CPU 变量 副本 的 产生 


T 严格 地 说 ， 此 处 是 指 setup per cpu areas 函数 的 整个 调用 链 ，setup_per cpu areas 函数 本 身 只 是 这 个 调用 链 的 发 起 者 。 
为 方便 报 述 ， 笔 者 只 简单 说 是 setup per cpu areas 函数 。 
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<mm/percpu.c> 


/ void initsetup per cpu areas(void) ———00000000000000 
setup per cpu areas 函数 首先 计算 H “.data.percpu"section 的 空间 大 小 Cstatic size = 
. per cpu end- _per_cpu_start)， 此 处 利用 的 正 是 上 节 链 接 脚 本 中 的 内 容 。static_size 是 内 
核 源 码 中 所 有 用 DEFINE PER. CPU 及 其 变 体 所 定义 出 的 静态 per-CPU 变量 所 占 室 间 的 大 
小 。 此 外 内 核 还 为 模块 使 用 的 per-CPU 变量 以 及 动态 分 配 的 per-CPU 变量 预 留 了 空间 (对 
应 图 3-7 中 的 reserved 和 dynamic 部 分 )， 大 小 分 别 记 为 reserved size 和 dyn size。 


然后 setup per cpu areas 函数 调用 alloc bootmem nopanic 来 分 配 一 段 内 存 ， 用 来 保存 
per-CPU 变量 副本 。 此 时 因为 系统 的 内 存 管理 系统 还 没有 建立 起 来 ， 所 以 使 用 的 是 Linux 
引导 期 内 存 分 配器 。 这 块 内 存 的 大 小 要 依赖 于 系统 中 CPU 的 数量 ， 因 为 要 为 每 个 CPU 创 
建 变量 的 副本 。 内 核 代 码 称 每 个 CPU 变量 副本 所 在 内 存 空间 为 一 个 unit， 所 以 代码 中 的 
nr units 变量 实际 上 表示 了 系统 中 CPU 的 数量 ， 每 个 unit 的 大 小 记 为 unit size. unit size = 
PFN_ALIGN(static_size + reserved size + dyn size)。 如 此 ， 变 量 副 本 所 在 空间 的 大 小 就 是 
nr units * unit_size。 指 针 变 量 pcpu_base_addr 指向 副本 空间 的 起 始 地 址 。 


容纳 副本 的 空间 有 了 ， 还 要 做 一 件 事 ， 把 内 核 映像 ".data..percpu"section 中 的 变量 数据 复制 
到 pcpu_base_addr 空间 ， 细 节 如 下 面 的 代码 段 所 示 : 
for (i = 0; i< nr units; i++, pcpu base addr += unit size) { 


memcpy(pcpu base addr, per cpu load, static size); 
} 


很 好 很 强大 ， 册 次 用 到 了 链接 脚本 中 的 变量 _per_cpu_load， 这 段 代 码 的 功能 在 图 3-7 中 为 
两 个 带 copy 标志 的 箭头 线条 所 示 。 


至此， 系统 针对 DEFINE_PER_CPU 定义 的 变量 已 经 为 每 个 CPU 产生 了 一 个 副本 ， 接 下 来 


的 问题 是 如 何 使 用 这 些 变量 的 副本 。 不 过 在 进入 这 一 话题 之 前 ， 先 稍微 扩展 这 里 讨论 的 内 
容 范围 ， 探 讨 per-CPU 变量 的 动态 分 配 机 制 。 


Q 动态 per-CPU 变量 副本 的 产生 


相对 于 静态 per-CPU 变量 的 定义 ， 动 态 分 配 一 个 per-CPU 变量 可 以 用 下 面 两 个 函数 ， 


(1) alloc percpu 
(2) void  percpu*  alloc percpu(size tsize, size t align) 


前 者 是 一 个 宏 ， 定 义 为 


<include/linux/percpu.h> 


“一 


#define alloc percpu(type) — 
(typeofitype) __percpu *)__alloc_percpu(sizeof(type),  alignof (type)) 
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alloc_percpu 底层 还 是 调用 了 alloc percpu， 使 用 了 默认 的 对 齐 参数 ”alignof (type). All 
果 有 对 对 齐 方 式 的 特别 要 求 ， 那 么 应 该 直接 使 用 _ alloc_percpu 函数 。 


对 应 的 释放 函数 为 


<mm/percpu.c> 


à da ks db da eee eh m de m mom m ee eB Be T0000 -Tr 


void free_percpu(void — percpu *ptr) 


关于 动态 per-CPU 变量 的 分 配 机 制 ， 内 核 中 的 相关 代码 比较 烦琐 ,但 是 核心 思想 同 静 态 
per-CPU 是 一 样 的 ,， 大体 可 分 为 两 部 分 : 第 一 部 分 ,为 系统 中 的 每 个 CPU 分 配 副 本 的 空间 ; 
第 二 部 分 ， 通 过 某 种 机 制 实现 对 CPU 特定 的 副本 空间 的 访问 。 


这 里 的 “ 某 种 机 制 ” 很 快 就 会 在 下 一 节 中 谈 到 。 关 于 第 一 部 分 ， 前 面 已 经 看 到 静态 per-CPU 
变量 是 如 何 达成 这 一 目标 的 ， 因 为 静态 定义 的 变量 所 在 空间 大 小 是 预先 确定 的 ， 所 以 内 核 
能 很 轻易 完成 副本 空间 的 分 配 和 变量 数据 的 复制 。 但 是 对 于 动态 分 配 的 per-CPU 变量 ， 则 
没有 这 么 幸运 , 变量 可 以 随时 被 申请 , 也 可 以 随时 被 释放 8。 为 此 ， 内核 使 用 一 种 基于 chunk 
的 手法 来 实现 ，chunk 作为 一 种 存放 管理 数据 的 容器 而 存在 ， 根 据 其 上 空闲 空间 的 大 小 而 
在 一 个 pepu_slot 数组 所 表示 的 链表 中 进行 迁移 ， 数 组 的 索引 i 指明 了 其 链表 中 chunk 空闲 
空间 的 大 小 , 当 需 要 动态 分 配 一 个 per-CPU 变量 时 ,内核 在 pepu slot 数组 中 查找 有 无 chunk 
的 空闲 空间 满足 需要 ， 如 果 有 ， 就 在 此 chunk 的 空闲 室 间 中 为 系统 中 的 每 个 CPU 生成 变量 
的 副本 空间 〈pcpu_populate_chunk)， 如 果 没 有 ， 就 重新 创建 一 个 新 的 chunk， 对 于 新 分 配 
的 chunk, 会 在 内 核 虚 拟 地 址 空间 的 vmalloc 区 为 它 分 配 副 本 空间 (这 是 一 个 虚拟 地 址 连续 
的 ,包含 了 系统 中 所 有 CPU 的 副本 的 存储 空间 ), 空间 的 起 始 地 址 保存 在 chunk 的 base. addr 
成 员 中 。chunk 用 一 个 整 型 数组 map 来 跟踪 副本 空间 的 分 配 情况 ， 当 要 分 配 一 个 动态 
per-CPU 变量 时 ， 就 在 副本 空间 查找 空闲 区 域 ， 找 到 之 后 为 每 个 CPU 都 分 配 出 存储 该 
per-CPU 变量 的 存储 小 块 。 注意 此 时 存储 per-CPU 变量 的 空间 还 是 在 vmalloc 区 ,如果 之 前 
该 存储 小 块 上 还 没有 映射 物理 页 面 的 话 ， 需 要 为 新 分 配 变 量 映射 新 的 页 面 ， 物 理 页 通过 页 
分 配器 从 伙伴 系统 获得 ，chunk 通过 成 员 变 量 populated 来 跟踪 物理 页 面 的 提交 。 读 者 仔细 
看 看 源码 就 会 发 现 , chunk 其 实 是 整个 percpu memory allocator 的 基础 ,即使 是 静态 per-CPU 
变量 ， 最 终 也 都 被 统一 到 了 chunk 的 体系 当中 《〈 从 前 面 对 静 态 per-CPU 变量 实现 机 制 的 讨 
论 ， 静 态 per-CPU 变量 其 实 并 不 需要 chuck)， 内 核 创建 的 第 一 个 chunk 就 是 用 来 管理 内 核 
中 定义 的 静态 per-CPU 变量 (pcpu setup_first_chunk)， 这 个 chunk 中 的 base addr 就 是 图 
3-7 中 的 pepu base addr， 不 过 这 第 一 个 chunk 有 点 特殊 ， 它 的 副本 空间 是 通过 Linux 引导 
期 内 存 分 配器 获得 的 。 


总 之 ， 执 行 期 生成 的 chunk 在 vmalloc 区 分 配 副本 空间 ， 通 过 map 成 员 跟 踪 空 间 分 配 信息 ， 
通过 populated 成 员 跟 踪 物 理 页面 的 提交 信息 。 对 此 过 程 的 详细 描述 读者 可 参考 


8 这 和 vmalloc 函数 要 完成 的 功能 非常 相似 ，vimalloc 也 要 对 malloc 区 域 中 的 分 配 与 释放 进行 管理 。 
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www.embexperts.com. 


概括 下 来 , alloc_percpu 返回 的 是 chunk->base_addr + offset - delta (此 处 的 offset 是 刚 分 配 
的 per-CPU 变量 在 CPU0 所 属 的 副本 空间 的 翁 移 量 ， delta 将 在 下 面 的 “使 用 per-CPU 变量 ” 
一 节 中 讲述 )， 在 访问 该 变量 CPU 特定 的 副本 时 ， 需 要 在 该 地 址 上 使 用 “ 某 种 机 制 ” 获 得 
CPU 特定 的 变量 所 在 地 址 ， 然 后 才 可 以 进行 访问 。 


全 此 ， 所 有 关于 静态 和 动态 per-CPU 变量 副本 空间 的 问题 都 已 经 解决 ， 处 理 器 拥有 了 自己 
独立 的 变量 空间 ， 该 是 使 用 它们 的 时 候 了 。 访 问 per-CPU 变量 的 要 点 是 根据 不 同 的 处 理 器 
获得 对 应 的 变量 副本 。 


3.6.4 ”使 用 per-CPU 变量 


已 经 有 了 per-CPU 变量 副本 所 在 空间 的 首 地 址 ， 现 在 我 们 需要 “ 某 种 机 制 ” 来 访问 它 。 在 
内 核 源码 中 ,“ 某 种 机 制 ” 的 现实 表现 形式 是 内 核定 义 的 一 组 宏 , 为 了 正确 访问 per-CPU 变 
量 ， 应 该 在 代码 中 使 用 这 些 宏 。 为 了 了 解 访问 per-CPU 变量 的 “ 某 种 机 制 ”， 下 面 以 
get_cpu_var 宏 9 为 例 来 说 明 对 静态 per-CPU 变量 的 访问 。 


<include/asm- -generic/percpu. h> 


TT 一 


#define my cpu offset — per cpu offset [raw _smp processor. ido] 


<include/linux/compiler.h> 


# define RELOC_HIDE(ptr, off) \ 
({ unsigned long ptr; \ 
. ptr = (unsigned long) (ptr); \ 
(typeof(ptr)) (__ptr + (off); }) 


<include/asm-generic/percpu. h> 


人 


#define SHIFT PERCPU PTR( p, offset) (f \ 
__verify_pepu_ptr((__p)): \ 
RELOC_HIDE((typeof(*(__p))__ kernel force *)(__p), (__offset)); \ 

月 


<include/asm-generic/percpu.h> 


rr EE 天 


#define — get cpu var(var) \ 
(*SHIFT PERCPU PTR(&(var), my cpu offset) 
<include/linux/percpu. h> 


#define get_cpu_var(var) (*({ ^ | 
preempt disable(); \ 


& get cpu var(var); })) 


H- oL e Roy o 4 — crow c Foo 5 ko hog 705 o Rod. de Loc. 4 — 0 o. 3o 


9 在 get cpu var KI put. cpu. var 宏 的 定义 中 利用 了 用 运算 符 对 左 值 类 型 的 变量 检查 的 小 技巧 ， 这 使 得 代码 初 看 起 来 有 
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所 以 对 于 本 节 开 始 的 例子 int val = get cpu_var(dolphin)， 其 实 是 展开 成 如 下 等 价 的 代码 : 


int *p; 

preempt_disable(); 

p-(nt*)(&dolphin + per cpu offset[raw smp processor id()]); 
val = *p; 


代码 中 的 _per_cpu_offset 是 用 来 实现 处 理 器 副本 访问 的 基础 ， 每 个 处 理 器 副本 所 在 空间 的 
偏 移 地 址 都 由 _per_cpu_offset 引出 ， 这 是 个 全 局 性 的 数组 变量 : | 


«mm/percpu.c- 


| —————————— mr. LL. uL -—-—-a------umx.-—----6--L--L—--—4—e5——-——————-———Ai ELLA AAA o a e 


unsigned long — per cpu offset[NR CPUS] read mostly; 


它 的 初始 化 出 现在 setup per cpu areas 函数 中 ， 内 核 在 启动 阶段 调用 这 个 函数 来 初始 化 
per-CPU 变量 机 制 |; 


_<mm/percpu.c> 


a Se 


void init setup per cpu . a 


are das o om ood 和 


{ 
unsigned long delta; 
unsigned int cpu; 
delta = (unsigned long)pepu base addr- (unsigned long) per cpu start; 
for each possible cpu(cpu) 
. per cpu offset(cpu] = delta + pepu unit offsets[cpu]; 
} 


by tS ASA EP MH DE (pepu base addr) 5 "“.data..percpu"section 首 地 址 
( per cpu start) 之 间 的 偏 移 量 delta. (LPS PAM pcpu_unit offsets ZA MA, 
pepu_unit_offsets[cpu]fe7 37 Y, cpu 所 在 副本 空间 相对 于 pepu base addr 的 偏 移 量 ， 这 样 就 
可 得 到 per-CPU 变量 副本 的 偏 移 值 ， 放 在 ”per_cpu_offset 数组 中 。 


如 此 ， 对 于 CPU0 中 的 变量 var， 它 的 地 址 应 为 有 &val + _ per cpu offset[0]; XF CPUI 而 
言 ， 变 量 var 的 地 址 则 为 有 &val + — per cpu offset[1]. 


而 这 正 是 get cpu var 宏 所 完成 的 功能 。 


其 中 preempt_disable() 用 来 关闭 内 核 可 抢占 性 ， 这 是 因为 对 于 可 抢占 的 内 核 而 言 ， 即 使 是 在 
单 处 理 器 上 ， 依 然 会 有 竞争 的 情况 出 现 。 关 闭 内 核 可 抢占 性 可 确保 在 对 per-CPU 变量 操作 
的 临界 区 中 ， 当 前 进程 不 会 被 换 出 处 理 器 。 由 于 这 个 因素 的 存在 ， 需 要 一 个 和 get cpu var 
配对 使 用 的 宏 put cpu var， 用 来 恢复 内 核 调度 器 的 可 抢占 性 : 


<include/linux/percpu.h> 


a 


#define put_cpu_var(var) do { \ 
(void)&(var); \ 
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preempt enable(); A 
} while (0) 


如 果 需 要 读 取 其 他 处 理 器 中 的 副本 ， 可 以 使 用 per cpu(var, cpu): 


<include/asm-generic/percpu. h> 


#define per_cpu(var, cpu) \ 
(*SHIFT_PERCPU_PTR(&(var), per_cpu_offset(cpu))) 


为 了 使 读者 对 per-CPU 变量 的 使 用 有 个 直观 的 印象 ， 这 里 给 出 一 个 具体 例子 : 


/定义 一 个 静态 per-CPU 变量 my_birthday， 变 量 类 型 为 struct birth day 
struct birth day { 

int day; 

int month; 

int year; 


H 
static DEFINE PER. CPU(struct birth day, my birthday) = (12, 12, 1860); 


1 通过 get cpu var 访问 该 变量 
get_cpu_var(my_ birthday). year ++; 
put cpu var(my birthday); 


上 面 的 例子 中 首先 定义 了 一 个 数据 结构 struct birth day 作为 per-CPU 变量 的 类 型 ， 然 后 用 
DEFINE_PER_CPU 定义 了 一 个 per-CPU 变量 my_birthday, 最 后 用 get_cpu var 来 使 用 该 变 
量 。 在 多 处 理 器 系统 中 ， 当 CPU 0 执行 到 get cpu var 时 ， 因 为 宏 展开 后 的 
raw smp processor idO0， 所 以 它 将 获得 属于 它 的 my. birthday 变量 的 副本 。 


对 于 动态 分 配 的 per-CPU 变量 ， 在 前 面 的 “动态 per-CPU 变量 副本 的 产生 ”部 分 中 已 经 介 
绍 了 内 核 如 何 为 动态 分 配 的 per-CPU 变量 分 配 存储 空间 。 下 面 看 看 系统 是 如 何 访问 动态 
per-CPU 变量 的 。 访 问 动态 per-CPU 变量 通过 宏 per cpu ptr: 


<include/inux/percpu,h> 


TT- -a i Ge pm crete a i ge Sle aa eR UE SUR GA ms ons ea cun Vp CR CUR, 


#define per cpu ptr(ptr, cpu) SHIFT PERCPU PTR((ptr), per cpu u offset((cpu))) 


前 面 已 经 提 到 过 SHIFT PERCPU PTR. MEPA per-CPU 变量 一 样 ， 用 来 产生 CPU 特定 的 
变量 存储 空间 的 地 址 。 到 此 ， 为 了 完整 动态 per-CPU 变量 的 实现 机 制 ， 我 们 把 前 面 的 内 容 
与 这 里 的 讨论 串联 一 下 ， 首 先 我 们 通过 alloc_percpu 获得 了 变量 的 一 个 地 址 ， 访 地 址 的 值 
ptr = chunk->base_addr + offset - delta， 此 处 offset 是 该 变量 在 CPUO 副本 空间 的 偏 移 量 ， 
然后 假设 CPU 要 访问 属于 它 自己 的 变量 ， 那 么 它 应 该 使 用 per cpu ptr(ptr, 1)， 这 相当 于 : 
chunk->base_addr + offset - delta + delta + pcpu_unit_offsets[1]， 由 于 pepu unit offsets|1] = 
unit_size， 也 就 是 每 个 CPU 副本 空间 的 大 小 ， 所 以 per. cpu. ptr(ptr, 1) = chunk->base_addr + 
offset + unit_size， 这 样 就 得 到 了 CPUI 中 该 变量 的 实际 虚拟 地 址 (在 vmalloc [X )。 
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理论 上 的 原理 大 致 如 此 ， 下 面 再 结合 一 个 实际 的 案例 具体 化 本 节 的 讨论 。 


以 下 为 Linux 2.6.35 版 本 内 核 树 中 drivers/dma/dmaengine.c 使 用 的 动态 分 配 per-CPU 变量 的 
具体 代码 : 


struct dma chan tbl ent | 
struct dma chan *chan; 


Hh 
static struct dma chan tbl ent  percpu *channel table[DMA TX TYPE END]; 


/动态 分 配 一 类 型 为 struct dma chan tbl ent 的 per-CPU 7F &, channel table[cap] 为 指向 变 
1/ 量 所 在 空间 的 地 址 
channel table[cap] = alloc_percpu(struct dma chan tbl ent); 


/if ii per cpu ptr 得 到 特定 cpu 上 的 变量 指针 
for each possible cpu(cpu) 
per cpu ptr(channel table[cap], cpu)->chan = NULL; 


IPFE TELE VUE E. RAR ES S] 
free percpu(channel table[cap]); 


如 果 考 虑 到 内 核 的 抢占 性 可 能 造成 的 问题 ， 那 么 在 使 用 per cpu ptr 的 时 候 需 要 用 get cpu 
和 put cpu 来 关闭 和 开启 内 核 的 可 抢占 性 ， 如 下 面 的 示例 代码 所 示 : 

int cpu = get cpu(); 

struct dma chan tbl ent *ptr = per cpu ptr(channel table[cap], cpu); 


/开始 使 用 ptr 
LO: 


L1: 
1W 结 东 ptr 的 使 用 
put_cpu(); 


get cpu 与 put cpu 定义 如 下 ; 


<include/linux/smp.h> 


#define get cpu() ({ preempt disable(); smp processor id(); }) 
#define put cpu() preempt enable() 


这 里 关于 可 抢占 性 的 问题 在 于 ， 假 设 内 核 启 动 了 调度 器 的 可 抢占 特性 ， 如 果 在 L0 与 L1 之 
间 发 生 中 断 的 话 ， 当 前 进程 可 能 被 切换 出 处 理 器 CPU0， 那 么 等 到 下 次 该 进程 被 调度 执行 
时 ， 调 度 器 在 极端 情况 下 可 能 把 该 进程 提交 到 另 一 个 处 理 器 CPU1 上 运行 ，CPU1 拥有 一 
个 指向 CPUO 本 地 变量 副本 的 指针 , 此 时 当初 per-CPU 变量 被 设计 出 来 的 初 更 就 被 破坏 了 。 
更 深层 地 探讨 本 例 中 出 现 的 问题 ， 谣 似 是 把 ptr 的 获得 和 使 用 分 散 开 造成 的 ， 然 而 ， 若 不 能 
保证 对 per cpu ptr 使 用 的 原子 性 ， 这 个 问题 总 是 存在 的 〈 有 时 然 其 出 现 的 慨 率 异常 洲 茫 )。 
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所 以 为 安全 起 见 ，per_cpu_ptr 结合 get cpu 和 put cpu 的 配对 使 用 ， 总 是 没 错 的 。 


3.7 demás 


AS TE SY 2B T CR SRN REP rp 98$ HI A (64 fi |R BUS SELL lo 


首先 是 基于 伙伴 系统 的 页 面 分 配器 ， 这 是 内 核 中 整个 内 存 分 配 模块 的 核心 ， 用 于 分 配 单个 
或 者 是 连续 的 物理 内 存 页 。 页 面 分 配器 提供 的 接口 函数 总 体 上 可 以 分 为 两 类 。 


一 类 是 以 alloc pages(gfp_mask，gfporder) 函 数 领衔 。 该 类 全数 可 以 工作 在 三 个 内 存 域 ; 
ZONE_HIGHMEM, ZONE NORMAL 和 ZONE_DMA， 具 体 在 哪个 区 域 分 配 物理 页 由 
gfp mask 参数 指定 ， 如 果 所 指定 的 区 域 没有 是 够 的 空闲 页 面 满 足 要 求 ， 函 数 会 自动 到 下 一 
级 区 域 重 新 分 配 ， 但 是 不 会 进入 上 级 区 域 。 比 如 在 调用 allec pages 函数 时 指定 gfp mask 
为 ”GFP_HIGHMEM 的 话 ， 函 数 将 首先 到 高 端 内 存 域 中 试图 分 配 物理 页 面 ， 如 果 该 区 域 没 
有 足够 空闲 物理 页 面 满足 分 配 要 求 ， 则 函数 自动 到 ZONE NORMAL 中 查找 连续 空闲 页 ， 
如 果 该 区 也 没有 足够 物理 页 面 ， 则 函数 将 下 行 到 DMA 区 继续 进行 分 配 。 但 是 如 果 指 定 
gfp mask Jj GFP DMA, 函数 将 到 DMA 区 中 分 配 物理 页 ,即使 DMA 域 中 没有 足够 内 存 ， 
eR ALS ESSI ZONE NORMAL 区 ， 更 不 会 到 ZONE_HIGHMEM KP. NORMAL 和 
DMA 这 两 个 区 域 常 统称 为 低 端 内 存 区 域 ,它们 在 内 核 的 虚拟 地 址 空间 中 是 被 一 一 线性 映射 
的 ， 这 意味 着 物理 内 存 地 址 和 虚拟 地 址 之 间 只 存在 一 个 常量 差 值 (PAGE_OFFSET?， 所 以 
页 面 分 配器 在 内 部 的 实现 上 无 须 去 更 改 这 段 映 射 区 域 所 在 的 内 核 页 目录 表 项 (对 常规 内 存 
的 映射 在 系统 初始 化 期 间 就 完成 了 ， 在 系统 的 整个 运行 期 ， 这 部 分 空间 对 应 的 页 表 项 不 会 
改变 )。 所 以 如 果 alloc pages 返回 的 页 面 位 于 低 端 物理 内 存 区 , 那么 通过 page address 国 数 
可 以 将 返回 的 struct page 对 象 指针 转变 成 内 核 线性 地 址 ， 如 果 alloc pages 返回 的 页 面 位 于 
高 端 物理 内 存 区 , 由 于 这 部 分 页 面 尚未 被 映射 , 调用 者 就 需要 用 kmap 等 函数 对 返回 的 struct 
page 对 象 建立 映射 和 关系， 如 果 kmap 成 功 完 成 映射 关系 的 建立 ， 就 将 返回 一 个 内 核 虚 拟 地 
址 ， 该 地 址 位 于 内 核 虚 拟 地 址 宝 间 中 的 动态 映射 区 。gfp_mask 没有 为 ZONE NORMAL 区 
定义 专门 的 分 配 掩 码 ， 比 如 GFP NORMAL， 但 是 alloc_pages 系列 函数 内 建 的 默认 行为 
fe: 如 果 没 有 明确 指定 _GFP_HIGHMEM 或 者 是 _GFP_DMA， 那 么 就 视 同 分 配 时 指定 的 
分 配 掩 码 为 “ GFP NORMAL "。 设 备 驱动 程序 等 内 核 模 块 最 常用 的 分 配 掩 码 是 
GFP KERNEL 和 GFP AIOMIC， 由 于 二 者 均 未 明确 指定 _GFP_HIGHMEM 或 者 是 
. GFP DMA， 所 以 它们 都 会 在 低 端 内 存 区 中 分 配 物 理 页 和 面 。 


另 一 组 页 面 分 配器 以 “get free pages(gfp t gfp mask, unsigned int order) 函 数 领衔 ， 它 们 最 
终 也 是 通过 alloc pages 来 分 配 物 理 页 面 , 所 不 同 的 是 ， get free pages 函数 只 能 在 低 端 内 
存 区 域 中 分 配 物 理 页 ， 函 数 返 回 的 是 内 核 线性 地 址 ， 而 不 是 struct page 对 象 指 针 。 


其 次 是 基于 slab 分 配器 的 kmalloc 函数 和 kmem_cache alloc MAX. slab 分 配器 是 工作 在 页 


126 FRA Linux 设备 驱动 程序 内 核 机 制 


分 配器 基础 之 上 的 , 但 是 它 只 能 在 低 端 物理 内 存 区 中 分 配 页 面 。kmalloc 函数 在 内 部 的 实现 
上 基于 size_cache， 这 是 一 组 kmem cache 所 构成 的 缓存 ， 每 个 缓存 对 应 特定 大 小 的 内 存 对 
$. kmem cache alloc 函数 实际 上 是 对 size cache 的 一 种 扩展 , 它 可 以 对 kmem cache 中 的 
内 存 对 象 大 小 进行 定制 ， 所 以 当代 码 需 要 频繁 地 分 配 和 释放 同一 类 型 的 数据 结构 对 象 时 ， 
使 用 kmem cache alloc 函数 可 以 更 有 效 地 使 用 系统 的 内 存 资源 。 释 放 它 们 所 分 配 的 空间 使 
用 kfree 和 kmem cache free 函数 。 


接 下 来 是 vmalloc 函数 ， 这 个 函数 工作 在 内 核 虚 拟 空 间 的 VMALLOC START 和 
VMALLOC END 所 表示 的 vmalloc K. 该 虚拟 空间 对 物理 内 存 的 映射 不 是 一 一 对 应 的 ， 因 
此 vmalloc 函数 分 配 的 内 存 空间 的 特点 是 ， 在 虚拟 地 址 空间 是 连续 的 ， 但 是 所 映射 的 物理 
地 址 不 一 定 是 连续 的 。 它 所 映射 的 物理 内 存 指定 优先 从 高 端 内 存 区 (7 GFP. HIGHMEMD 

中 分 配 。 所 以 vmalloc 的 使 用 场景 是 ， 当 需要 分 配 一 段 大 内 存 时 ， 如 果 此 时 系统 中 能 满足 
要 求 的 连续 物理 页 面 不 一 定 存在 的 话 ( 此 时 用 kmalloc 函数 就 可 能 失败 ), 可 以 使 用 vmalloc 
在 内 核 虚 拟 地 址 空间 vmalloc 区 分 配 一 段 连 续 的 虚拟 地 址 空间 ， 然 后 通过 映射 到 分 散 的 物 
理 内 存 页 面 来 满足 内 存 分 配 的 需求 .所 以 如 果 设 备 要 求 分 配 出 的 空间 在 物理 上 是 连续 的 话 ， 
就 不 能 使 用 vmalloc 函数 。 另 外 ，vmalloc 函数 不 能 保证 原子 性 ， 因 此 不 能 用 在 非 进程 上 下 
SC, Hop RARE PFE. mU kmalloc 函数 可 以 通过 GFP ATOMIC 标志 来 达成 原子 性 。 

vmalloc 在 分 配 过 程 中 因为 涉及 对 页 表 项 的 操作 ， 这 种 操作 常常 要 重建 TLB， 会 导致 对 
vmalloc 返回 的 地 址 进行 访问 时 带 来 较 大 的 系统 开销 ,所 以 在 使 用 效率 上 不 及 kmalloc 函数 ， 
设备 驱动 程序 应 优先 考虑 kmalloc 等 函数 。 


最 后 一 个 内 存 分 配 的 函数 主要 是 用 在 多 处 理 器 系统 中 ， 即 per-CPU 内 存 分 配器 ， 虽 然 设 备 
驱动 程序 中 使 用 per-CPU 变量 的 机 会 极 少 ， 但 毕竟 也 是 比较 重要 的 内 存 分 配 机 制 ， 而 且 在 
本 书后 续 的 一 些 驱 动 程序 的 内 核 设施 上 也 会 看 到 它 的 身影 。 它 的 核心 思想 是 ， 通 过 为 系统 
中 每 个 处 理 器 都 分 配 一 个 CPU 特定 的 变量 副本 ， 来 减少 多 处 理 器 并 发 访问 时 的 锁定 操作 ， 
借 此 达到 提高 系统 性 能 的 目的 。 


至 于 系统 局 动 阶段 的 bootmem 内 存 分 配 机 制 ， 因 为 只 存在 于 系统 启动 阶段 内 核 内 存 管 理 模 
块 框 染 建立 起 来 之 前 使 用 ， 所 以 设备 驱动 程序 使 用 这 种 内 存 分 配 机 制 的 机 会 非常 少 。 
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本 章 讨论 Linux 内 核 为 设备 驱动 程序 等 内 核 模 块 提供 的 互 斥 与 同步 的 内 核 设 施 。 如 果 运 行 
的 系统 中 上 自始至终 只 有 一 个 执行 路 径 ， 那 么 无 须 考 虑 互 斥 与 同步 的 问题 ， 然 而 不 幸 的 是 ， 
现代 的 Linux 系统 不 只 支持 多 进程 而 且 支 持 多 处 理 器 ， 在 这 样 的 环境 下 ， 当 多 个 执行 路 径 
并 发 执行 时 确保 对 共享 资源 的 访问 安全 是 驱动 程序 员 不 得 不 面 对 的 问题 。 概 括 地 说 ， 互 斥 
是 指 对 资源 的 排他 性 访问 ， 而 同步 则 要 对 进程 执行 的 先后 顺序 做 出 妥善 的 安排 。 


因为 程序 的 并 发 执行 而 导致 的 竞 态 是 Linux 内 核 中 一 个 非常 复杂 的 方面 。 对 于 设备 的 驱动 
程序 开发 者 而 言 ， 熟 悉 Linux 内 核 提 供 的 并 发 互 斥 的 处 理 机 制 相 当 重 要 。 所 谓 竟 态 ， 简 而 
言 之 ， 就 是 多 个 执行 路 径 有 可 能 对 同一 资源 进行 操作 时 可 能 导致 的 资源 数据 紊乱 的 行为 。 
我 们 把 对 共享 的 资源 进行 访问 的 代码 片段 称 为 临界 区 (critical section)， 而 把 导致 出 现 多 个 
执行 路 径 的 因素 称 为 并 发 源 。 


本 章 将 首先 考察 Linux 系统 中 并 发 执行 的 来 源 ， 然 后 逐一 讨论 内 核 为 保证 对 资源 的 互 斥 访 
问 所 提供 的 内 核 设施 的 幕后 机 制 以 及 各 上 自 的 应 用 场景 。 最 后 讨论 Linux 内 核 为 保证 各 个 执 
行路 径 之 间 的 先后 顺序 所 提供 的 同步 机 制 . 大 部 分 的 篇 幅 都 将 用 来 讨论 与 互 斥 相关 的 东西 ， 
因为 对 并 发 的 互 帮 管理 是 非常 令 人 头疼 的 。 在 面 对 实 际 的 项 目 时 ， 很 可 能 不 确定 哪些 地 方 
需要 用 到 内 核 的 互 斥 机 制 ， 或 者 即使 能 够 想到 要 对 资源 进行 保护 ， 也 有 可 能 在 面 对 内 核 提 
供 的 众多 互 帮 机 制 时 无 法 做 出 正确 抉择 。 更 让 人 泪 丧 的 是 , HU SERE BL SUR RRR, 
绝 大 部 分 的 时 间 里 程序 都 运转 良好 ， 然 而 有 时 候 却 出 现 莫名 的 出演 ， 这 种 崩溃 因为 难以 复 
现 ， 会 给 后 期 的 调试 工作 带 来 很 大 的 困难 。 驱 动 程序 开发 者 对 内 核 提供 的 互 斥 机 制 的 确切 
理解 是 写 出 高 安全 性 代码 的 关键 。 鉴 于 这 些 内 核 设 施 的 代码 严重 依赖 特定 的 处 理 器 体系 架 
构 ， 所 以 在 对 具体 的 代码 进行 分 析 时 ， 主 要 以 ARM 平台 为 主 。 代 码 分 析 的 意义 ， 上 由 在 让 
读者 对 抽象 的 概念 有 具体 的 印象 。 
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当 我 们 说 并 发 时 ， 是 指 可 能 导致 对 共享 资源 的 访问 出 现 竞 争 状态 的 若干 执行 路 径 ， 不 一 定 
是 指 严格 的 时 间 意 义 上 的 并 发 执行 。Linux 系统 下 并 发 的 来 源 主要 有 1: 


128 RA Linux 设备 驱动 程序 内 核 机 制 


OQ 中 断 处理 路 径 


当 系 统 正 在 执行 当前 进程 时 , 发 生 了 中 断 ， 中 断 处 理 函 数 和 被 中 断 的 进程 之 间 形 成 的 并 发 ， 
在 单 处 理 器 中 ， 昌 然 中 断 处 理 函 数 的 执行 路 径 与 被 中 断 的 进程 之 间 不 是 真正 严格 意义 上 的 
并 发 ， 然 而 中 断 处 理 消 数 和 被 中 断 进 程 之 间 却 可 能 形成 部 态 。 软 中 断 的 执行 也 可 归结 到 这 
种 类 型 的 并 发 中 。 


O 调度 器 的 可 抢占 性 


企 单 处 理 器 上 ， 因 为 调度 器 的 可 抢占 特性 ， 导 致 的 进程 与 进程 之 间 的 并 发 。 这 种 行为 非常 
类 似 多 处 理 器 系统 上 进程 间 的 并 发 。 


O 多 处 理 器 的 并 发 执行 


多 处 理 器 系统 上 进程 与 进程 之 间 是 严格 意义 上 的 并 发 ， 每 个 处 理 器 都 可 独自 调度 运行 一 个 
进程 ， 在 同一 时 刻 有 多 个 进程 在 同时 运行 。 


4.2 local_irq_enable 5 local_irq_disable 


在 单 处 理 器 不 可 抢占 系统 中 , 使 用 local irq enable 与 local irq disable 是 消除 异步 并 发 源 的 
有 效 方 式 ， 虽然 驱 动 程序 中 应 该 避免 使 用 这 两 个 宏 (理由 将 在 本 章 稍 后 的 内 容 中 给 出 7)， 但 
是 在 spinlock 等 互 斥 机 制 中 常常 用 到 这 两 个 宏 , 所 以 在 此 用 一 节 的 篇 幅 来 对 它们 进行 介绍 。 
local_irq_enable 宏 用 来 打开 本 地 处 理 器 的 中 断 ， 而 local irq disable 则 正好 相反 ， 用 来 关闭 
处 理 器 的 中 断 。 这 两 个 宏 的 定义 如 下 : 


<include/linux/irqflags.h> 


-一 -一 -nn 


#define local irqg enable() \ 

do { trace_hardirqs on(); raw_local_irq enable(); } while (0) 
Hdefine local irq disable() ^ 

do { raw local irq disable(); trace hardirqs off(); } while (0) 


其 中 trace_hardirqs_on() 和 trace hardirqs off) A (Vain, 这 里 重点 关注 raw local irq. enable() 
和 raw local irq_disable()， 这 两 个 宏 的 具体 实现 都 依赖 于 处 理 器 体系 架构 ， 不 同 处 理 器 有 

不 同 的 指令 来 启用 或 者 关闭 处 理 器 响应 外 部 中 断 的 能 力 ， 比 如 在 x86 平台 上 ， 会 最 终 利 用 

sti 和 cli 指令 来 分 别 设置 和 清除 x86 处 理 器 中 的 FLAGS1 寄 存 器 的 IF 标志， 这样 处 理 器 就 

可 以 响应 或 者 不 响应 外 部 的 中 断 。ARM 平台 则 使 用 CPSIE 指令 ， 


在 单 处理 器 不 可 抢占 系统 中 ， 如 果 某 段 代 码 要 访问 某 共 享 资源 ， 那 么 在 进入 临界 区 前 使 用 


1 虽然 不 同 的 处 理 器 上 FLAGS 寄存 器 的 名 称 各 有 不 同 , 但 是 所 实现 的 功能 大 体 类 似 。 因此 本 书 统一 称 其 为 FLAGS 寄存 器 。 
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local_irq disable 来 关闭 中 断 ， 这 样 在 临界 区 中 可 保证 系统 不 会 出 现 弄 步 并 发 源 ， 访 问 完 共 
享 数据 在 出 临界 区 时 ， 再 调用 local irq enable 来 启用 中 断 。 


local_irq_enable 与 local irq disable 还 有 一 种 变 体 , 是 local irq save 与 local irq restore 宏 ， 
定义 如 下 : 


#define local irq save(flags) \ 
do { E 
typecheck(unsigned long, flags); — 
raw local irq save(flags); \ 
trace hardirqs off(); A 
} while (0) 
#define local irq restore(flags) \ 
do { \ 


typecheck(unsigned long, flags); \ 
if (raw_irqs disabled flags(flags)) { \ 
raw local irq restore(flags); \ 


trace hardirqs offi); \ 
} else { \ 
trace hardirqs on(); \ 


raw local irq restore(flags); 、 
} \ 
} while (0) 
这 两 个 宏 相 对 于 local irq enable 与 local irq disable BAMA IZEF, local irq save 会 在 
关闭 中 断 前 ， 将 处 理 器 当前 的 标志 位 保存 在 一 个 unsigned long flags 中 ， 在 调用 
local irq restore 的 时 候 ， 再 将 保存 的 flags 恢复 到 处 理 器 的 FLAGS 寄存 器 中 。 这 样 做 的 目 
的 是 , 防止 在 一 个 中 断 关 闭 的 环境 中 国 为 调用 local irq_disable 与 local irq_enable 将 之 前 的 
中 断 响 应 状态 破坏 掉 。 


在 单 处 理 器 不 可 抢占 系统 中 , 使 用 local_irq_enable 与 local irq disable 及 其 变 体 来 对 共享 数 
据 保 护 是 种 简单 而 有 效 的 方法 。 但 在 使 用 时 应 该 注意 ， 因 为 local irq enable 与 
local irq disable 是 通过 关中 断 的 方式 进行 互 斥 保护 ， 所 以 必须 确保 处 于 两 者 之 间 的 代码 执 
行 时 间 不 能 太 长 ， 否 则 将 影响 到 系统 的 性 能 。 


4.3 BHE 


设计 目 旋 锁 的 最 初 目 的 是 在 多 处 理 器 系统 中 提供 对 共享 数据 的 保护 , 其 背后 的 核心 思想 是 : 
设置 一 个 在 多 处 理 器 之 间 共 享 的 全 局 变量 锁 V， 并 定义 当 V=1 时 为 上 锁 状态 ，V=0 为 解锁 
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状态 。 如 果 处 理 器 A 上 的 代码 要 进入 临界 区 ， 它 要 先 读 取 VA, AIRBAG HO, we 
V 关 0 表明 有 其 他 处 理 器 上 的 代码 正在 对 共享 数据 进行 访问 ， 此 时 处 理 器 A 进入 忙 等 待 即 
EE. 如果 V=0 表明 当前 没有 其 他 处 理 器 上 的 代码 进入 临界 区 , 此 时 处 理 器 A 可 以 访 
问 该 资源 ， 它 先 把 V 置 1 ( 自 旋 锁 的 上 锁 状 态 )， 然 后 进入 临界 区 ,访问 完毕 离开 临界 区 时 
HV 置 0( 自 旋 锁 的 解锁 状态 )。 


上 述 目 许 锁 的 设计 思想 在 用 具体 代码 实现 时 的 关键 之 处 在 于 ， 必 须 确 保 处 理 器 A“ 读 取 V， 
判断 V 的 值 与 更 新 V” 这 一 操作 序列 是 个 原子 操作 (atomic operation)。 所 谓 原子 操作 ， 简 
单 地 说 就 是 执行 这 个 操作 的 指令 序列 在 处 理 器 上 执行 时 等 同 于 单条 指令 ， 也 即 该 指令 序列 
在 执行 时 是 不 可 分 割 的 2。 


4.3.1 spin lock 


不 同 的 处 理 嚣 上 有 不 同 的 指令 用 以 实现 上 述 的 原子 操作 , 所 以 spin lock 的 相关 代码 在 不 同 
体系 架构 上 有 不 同 的 实现 ， 为 了 帮助 读者 对 spin lock 这 一 机 制 建立 具体 的 印象 ， 下 面 以 
ARM 处 理 器 上 的 实现 为 例 ， 仔 细 考 察 spin lock 的 幕后 行为 。 下 面 的 讨论 先 以 多 处 理 器 为 
主 ， 然 后 再 讨论 spin lock 及 其 变 体 在 单 处 理 器 上 的 演进 。 


在 给 出 实际 源码 细节 之 前 ， 先 做 个 简短 的 说 明 ， 为 了 让 读者 更 清楚 地 理解 这 里 的 代码 ， 下 
面 会 对 代码 进行 轻微 调整 ， 使 之 外 在 的 表现 形式 更 加 紧凑 而 又 不 影响 其 内 涵 ， 同 时 也 不 会 
关注 一 些 调试 相关 的 数据 成 员 ， 所 以 在 摘录 的 代码 中 已 将 其 移 除 。 


下 面 是 Linux 源码 中 提供 给 设备 驱动 程序 等 内 核 模 块 使 用 的 spin lock 接口 函数 的 定义 ; 


«include/linux/spinlock.h? 


static inline void spin lock(spinlock t*lock) = = = 
t 

raw spin lock(&lock--^rlock); 
} 


代码 中 的 数据 结构 spinlock_t. 就 是 前 面 提 到 的 在 条 处 理 器 之 间 共 享 的 自 旋 锁 在 现实 源码 中 
的 具体 表现 ， 透 过 层 层 的 定义 ， 会 发 现实 际 上 它 就 是 个 volatile unsigned int 型 变量 ; 


«include/linux/spinlock types.h» 


! o4 GARS OB c-SO HRS GR Hoodie 9 Rp BOO4 CLE OO Coo W— Ce Com mom 


typedef struct raw spinlock { 
volatile unsigned int raw lock; 
| raw spinlock t; 


到 是 


typedef struct spinlock { 


2 此 处 是 从 所 调 原子 指令 的 使 用 效果 的 角度 而 言 ， 像 ARM 中 的 LDREX 和 STREX， 当 代码 正在 这 两 条 指令 问 执行 时 ， 
可 以 被 换 出 处 理 器 ， 但 是 因为 指令 本 身 的 设计 原理 ， 它 们 可 以 在 指令 执行 的 效果 上 实现 原子 的 操作 ，。 
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union { 
struct raw spinlock  rlock; 
Is 
} spinlack t; 
spin lock E& 2X P val HIT] raw spin lock 是 个 宏 ， 其 实现 是 人 处 理 器 相关 的 ， 对 于 ARM 处 理 器 
而 言 ， 最 终 展开 为 
static inline void raw spin lock (raw spinlock t *lock) 
{ 
preempt_disable(); 
do_raw_spin_lock(lock) 


} 


函数 首先 调用 preempt disable 宏 ， 后 者 在 定义 了 CONFIG PREEMPT， 也 即 在 支持 内 核 可 
抢占 的 调度 系统 中 时 ， 将 关闭 调度 器 的 可 抢占 特性 。 在 没有 定义 CONFIG PREEMPT 时 ， 
preempt disable ETEEN, Ate TI 


真正 的 上 锁 操 作 发 生 在 后 面 的 do_raw spin lock 函数 中 , 不 过 在 讨论 该 函数 的 实现 细节 前 ， 
先 来 看 看 为 什么 raw. spin lock 要 先 调用 preempt disable 来 关闭 系统 的 可 抢占 性 ,在 一 个 打 
开 了 CONFIG_PREEMPT 特性 的 Linux 系统 中 ， 一 个 在 内 核 态 执行 的 路 径 也 有 可 能 被 切换 
出 处 理 器 ， 和 典型 地 ， 比 如 当前 进程 正在 内 核 态 执行 某 一 系统 调用 时 ， 发 生 了 一 个 外 部 中 断 ， 
当中 断 处 理 函 数 返回 时 ， 因 为 内 核 的 可 抢占 性 ， 此 时 将 会 出 现 一 个 调度 点 ， 如 果 CPU 的 运 
行 队列 中 出 现 了 一 个 比 当 前 被 中 断 进 程 优先 级 更 高 的 进程 ， 那 么 被 中 断 的 进程 将 会 被 换 出 
处 理 器 ， 即 便 此 时 它 正 运行 在 内 核 态 。 单 处 理 器 上 的 这 种 因为 内 核 的 可 抢占 性 所 导致 的 两 
个 不 同 进程 并 发 执行 的 情形 , 非常 类 似 于 SMP 系统 上 运行 在 不 同 处 理 器 上 的 进程 之 间 的 并 
发 ， 因 此 为 了 保护 共享 的 资源 不 会 受到 破坏 ， 必 须 在 进入 临界 区 前 关闭 内 核 的 可 抢占 性 。 
因为 Linux 内 核 源 码 试图 统一 自 旋 锁 的 接口 代码 ， 即 不 论 是 单 处 理 器 还 是 多 处 理 器 ， 不 论 
内 核 是 否 配 置 了 可 抢占 特性 ， 提 供给 外 部 模块 使 用 的 相关 自 旋 锁 代码 都 只 有 一 份 ， 所 以 可 
以 看 到 在 上 述 的 raw_spin_lock 函数 中 加 入 了 内 核 可 抢占 性 相关 的 代码 , 即便 是 在 没有 配置 
内 核 可 抢占 的 系统 上 ， 外 部 模块 也 都 统一 使 用 相同 的 spin lock 和 spin. unlock 接口 函数 。 


ARRS WH do raw spin lock 开始 真正 的 上 锁 操 作 〈 为 了 便于 后 面 的 叙述 ， 展 开 的 能 入 
拒 编 代码 前 加 了 行 号 标志 L， 下 同 ): 


static inline void do raw spin lock (raw spinlock t *lock) 
{ 
unsigned long tmp; 
. asm volatile ( 
LI "i: ddrex %0, [961 Jin" 
L2  "teq 940, 40 n" 
L3  "strexeq — 990, 982, [%l]\n" 
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L4 "teqeq 990, #0\n" 
L5 "bne Ib" 
: "=&r" (tmp) 
: "r" (&lock-> raw lock), "r" (1) 
: "ec"h 
smp mb(); 
j 
do raw. spin lock EE E rP BTE Si CBS E ARM 处 理 器 上 实现 自 旋 锁 的 核心 代码 , 它 通 
过 使 用 ARM 处 理 器 上 专门 用 以 实现 互 斥 访问 的 指令 ldrex 和 strex 来 达到 原子 操作 的 目的 : 


€ "ldrex%0, [%1]" 相 当 于 "tmp = lock-»raw lock"， 即 读 取 自 旋 锁 V 的 初始 状态 ， 放 在 临时 
变量 tmp 中 。 


€ "teg %0, 40" AIT V ETA 0, WRTA 0, 表明 此 时 自 旋 锁 处 于 上 锁 状 态 , 代码 执行 "bne 
1b" 指 令 ， 开 始 进入 忙 等 待 ， 不 停 地 到 标号 1 处 读 取 目 旋 锁 的 状态 ， 并 判断 是 否 为 0。 


€ "strexeq  ?60, %2, [%1]" 这 条 指令 是 说 ， 如 果 V=0 ( 自 旋 锁 处 于 解锁 的 状态 )， 说 明 可 以 
进入 临界 区 , 那么 就 用 常量 1 来 更 新 V 的 值 , 并 把 更 新 操作 执行 的 结果 放 到 变量 tmp 中 。 


e "teqeq -— %0, #0" 用 来 判断 上 一 条 指令 对 V. 的 更 新 操作 其 结果 tmp 是 否 为 0, 如 果 是 0 
则 表明 更 新 V 的 操作 成 功 ， 此 时 V=1， 代 码 可 以 进入 临界 区 。 如 果 tmp 去 0， 则 表明 更 
新 V 的 操作 没有 成 功 ， 代 码 执行 "bne 1b" 指 令 进入 忙 等 待 。 


这 里 之 所 以 要 执行 "teqeq%0, #0"， 正 是 要 利用 Idrex 和 strex 指令 来 达成 原子 操作 的 目的。 


假设 系统 中 有 两 个 处 理 器 A 和 B. 其 上 运行 的 代码 现在 都 通过 调用 spin. lock 试图 进入 临界 
区 。 开 始 的 时 候 ， 自 旋 锁 V=0 处 于 解锁 状态 ， 注 意 这 里 是 真正 地 并 发 执行 。 当 处 理 器 A 执 
行 完 L1 处 的 指令 ， 尚 未 开始 执行 L2 时 ， 处 理 器 B 开始 执行 L1， 等 到 处 理 器 A 执行 完 L2 
准备 执行 L3 时 , 处 理 器 B 执行 完 L1。 这 样 会 发 生 什么 情况 昵 ? 此 时 在 处 理 器 A 和 B 看 来 ， 
V 都 是 0 《因为 处 理 器 B BUT SE LI 时 ， 处 理 器 A 还 没有 执行 L3， 因 此 V 还 没有 被 更 新 )， 
这 意味 着 它们 都 将 以 为 自己 可 以 成 功 获得 锁 而 进入 临界 区 ， 所 以 接 下 来 它们 都 将 试图 去 更 
新 V 为 1。 谁 先 更 新 V 并 不 重要 ， 重 要 的 是 如 果 没 有 L4 处 的 指令 ， 处 理 器 A 和 B 都 将 踏 
ii L5 处 的 指令 而 进入 临界 区 ， 而 这 意味 着 spin lock 函数 对 并 发 访问 时 的 互 斥 管理 是 失败 
的 ， 将 可 能 在 系统 中 引起 非常 严重 的 后 果 。 


但 是 因为 L4 处 代码 的 出 现 情况 发 生 了 变化 ，L4 人 处 的 代码 在 这 种 危急 关头 所 起 的 作用 得 益 
于 strex 和 ldrex 指令 ， 相 对 于 ARM 中 普通 的 str 与 ldr 指令 ，strex 和 ldrex 加 入 了 对 共享 
内 存 互 奈 访 问 的 支持 3。 针 对 本 例 ， 在 处 理 器 A 和 B 都 使 用 L1 处 的 ldrex 来 访问 自 旋 锁 V 


3 关于 这 方面 的 具体 技术 细节 ， 感 兴 盐 的 读者 可 查阅 ARM V6 手册 ，LDREX 和 STREX 是 在 ARM V6 开始 引入 的 对 互 
斥 访问 提供 支持 的 指令 ， 
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之 后 ， 在 执行 到 L4 时 将 导致 只 有 其 中 一 个 处 理 器 可 以 成 功 执行 L4， 也 即 成 功 更 新 V. 为 1， 
tmp=0。 男 一 个 处 理 器 将 不 会 完成 对 V. 的 更 新 动 作 ， 对 它 而 言 tmp=1， 意 味 着 更 新 动作 失 
败 ， 这 样 它 将 不 得 不 执行 LS 进入 自 旋 状态 。 如 此 就 可 以 保证 对 自 旋 锁 V 的“ 读 取 一 检测 
一 更 新 ”操作 序列 的 原子 性 。 


与 spin lock 相对 的 是 spin unlock 计 数 ， 这 是 一 个 应 该 在 离开 临界 区 时 调用 的 函数 ， 用 来 
释放 此 前 获得 的 自 旋 锁 。 其 外 部 接口 定义 如 下 : 


<include/linux/spinlock. h> 


Bib mE ue i MO uei me em et qur We ci mE GÉ i i ona Cn pS pc ct) i emn em 


static inline void spin - unlock(spinlock_ t lock) 


{ 


gi im in) ee i we Dt i Tt i er ee et ee eae 


raw_spin_unlock(&lock->rlock); 
} 


static inline void raw_spin_unlock (raw_spinlock_t * lock) 
{ 

do raw spin unlock(lack); 

preempt enable(); 


} 


国 数 先 调用 do raw spin unlock 做 实际 的 解锁 操作 ， 然 后 调用 preempt_enable() (4T FA 
核 可 抢占 性 ， 对 于 没有 定义 CONFIG PREEMPT 的 系统 ， 该 宕 是 个 空 定 义 。 
do raw spin unlock 函数 在 ARM 处 理 器 上 的 代码 如 下 : 
static inline void do_raw_spin_unlock(raw_spinlock_t * lock) 
{ 
smp_mb(); 


asm  — volatile ( 


—— 


"str 961, [960] in" 


: "r" (&lock->lock), "r" (0) 
. "CC" y 


I 


解锁 操作 比 获得 锁 的 操作 要 相对 简单 ， 只 需 更 新 锁 变量 为 0 即 可 ， 在 ARM 平台 上 利用 单 
条 指令 str 就 可 以 完成 该 任务 ， 所 以 代码 非常 简单 ， 直 接 用 str 指令 将 自 旋 锁 的 状态 更 新 为 
0， 即 解锁 状态 。 针对 spin lock 应 该 调用 spin unlock 而 不 是 其 他 形式 的 释放 锁 函 数 ， 驱 动 
程序 员 必 须 确 保 这 种 获得 锁 和 释放 锁 函 数 调用 的 一 致 性 


4.3.2 spin lock 的 变 体 


在 前 面 讨论 spin lock 函数 时 , spin lock 对 多 处 理 器 系统 中 这 种 进程 间 真 正 的 并 发 执行 引起 
的 竞 态 问 题解 决 得 很 好 ， 但 是 考虑 图 4-1 所 示 这 样 一 个 场景 
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—M list 





process A 


spin lock(&slock) L^ 


* AR co mr m x mA 80 AEN H * AR Ro i o£ 


Interrupted by the HW 







| critical section 


spin unlock(&slock) | 


图 4-1 spin lock 在 中 断 并 发 情形 下 所 引入 的 问题 


处 理 器 上 的 当前 进程 A 因为 要 对 某 一 全 局 性 的 链表 g list 进行 操作 ， 所 以 在 操作 前 通过 调 
用 spin lock 来 进入 临界 区 《图 中 标号 1 所 示 )， 当 它 正 处 于 临界 区 中 时 ， 进 程 A 所 在 的 处 
理 器 上 发 生 了 一 个 外 部 硬件 中 断 ， 此 时 系统 必须 暂停 当前 进程 A 的 执行 转 而 去 处 理 该 中 断 
(图 中 标号 2 所 示 )， 假 设 该 中 断 的 处 理 例 程 中 恰好 也 要 操作 g_list， 因 为 这 是 一 个 共享 的 全 
局 变量 ， 所 以 在 操作 之 前 也 要 调用 spin lock 函数 来 对 该 共享 变量 进行 保护 (图 中 标号 3 所 
示 )， 当 中 断 处 理 例 程 中 的 spin lock 试图 去 获得 自 旋 锁 slock 时 ， 因 为 被 它 中 断 的 进程 A 
之 前 已 经 获得 该 锁 ， lap cheers A Seep AE UE ^ 
EIC IAEESUA MO, RU A LA 此 时 它 





放 锁 ， 下 以 将 导致 中 断 处 理 例 程 中 的 spin lock 一 直上 自 旋 下 去 ， 导 致死 锁 。 HIN 
况 的 本 质 原因 在 于 对 锁 的 竞争 发 生 在 不 能 真正 并 发 执行 的 两 条 路 径 上 , 如 果 可 以 并 发 执行 ， 
那么 在 上 面 的 案例 中 ， 被 中 断 的 进程 依然 可 以 继续 执行 继而 释放 锁 。 对 这 种 问题 的 解决 导 
致 了 spin lock 项 数 其 他 变 体 的 出 现 


因 处 理 外 部 的 中 断 而 引发 spin_ lock 缺陷 的 例子 ， 使 得 必须 在 这 种 情况 下 对 spin lock 予以 
修正 ,于 是 出 现 了 spin lock irq 和 spin lock irqsave HA. spin lock irq 函数 接口 定义 如 下 : 


<include/linux/spiniock.h> 


一 


static inline void spin lock irq(spinlock t *lock) 
{ 


je ee ee ke ee Pe ee ee eee eK RP -一 一 = 一 一 


raw_spin_lock_irq(&lock->rlock),; 
} 


static inline void raw spin lock irg(raw spinlock t *lock) 
( 
local irq disable(); 
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preempt_disable(); 
do_raw_spin_lock(lock) ; 
} 


其 中 的 raw spin lock irq 函数 的 实现 ， 相 对 于 raw spin lock 只 是 在 调用 preempt_disable 
之 前 又 调用 了 local irq_disable0， 后 者 在 本 章 前 面部 分 已 经 讨论 过 ， 用 来 关闭 本 地 处 理 器 
响应 外 部 中 断 的 能 力 ， 这 样 在 获取 一 个 锁 时 就 可 以 确保 不 会 发 生 中 断 ， 从 而 避免 上 和 面 提 到 
的 死 锁 问题 。local irq disable 只 能 用 来 关闭 本 地 处 理 器 的 中 断 ， 当 一 个 通过 调用 
spin lock irq 拥有 自 旋 锁 V 的 进程 在 处 理 器 A 上 执行 时 , 虽然 在 处 理 器 A 上 中 断 被 关闭 了 ， 
但 是 外 部 中 断 依然 有 机 会 发 送 到 处 理 器 B b. 如 果 处 理 器 B 上 的 中 断 处 理 函 数 也 试图 去 获 
HA V， 人 情况 会 怎样 呢 ? 因为 此 时 处 理 器 A 上 的 进程 可 以 继续 执行 ， 在 它 离开 临界 区 时 将 
释放 锁 ， 这 样 处 理 器 了 上 的 中 断 处 理 函 数 就 可 以 结束 此 前 的 自 旋 状 态 。 这 从 一 个 侧面 说 明 
通过 自 旋 锁 进入 的 临界 区 代码 必须 在 尽 可 能 短 的 时 间 内 执行 完毕 , 因为 它 执行 的 时 间 越 长 ， 
别 的 处 理 器 就 越 需要 自 旋 以 等 等 更 长 的 时 间 (尤其 是 这 种 自 旋 发 生 在 中 断 处 理 函 数 中 ), 最 
糟 糙 的 情况 是 进程 在 临界 区 中 因为 某 种 原因 被 换 出 处 理 器 。 所 以 作为 使 用 自 旋 锁 时 一 条 确 
定 的 规则 ， 任 何 拥有 目 旋 锁 的 代码 都 必须 是 原子 的 ， 不 能 休眠 。 在 实际 的 使 用 中 ， 这 条 规 
则 实践 起 来 还 是 相 : ， 远 不 怕 规则 描述 的 那样 直 魏 ， 调 用 者 需要 仔细 审视 在 拥 
有 锁 时 的 每 个 函数 调用 ， 因 为 睡眠 有 可 能 发 生 在 这 些 函 数 的 内 部 ， 比 如 以 GFP KERNEL 
作为 分 配 掩 码 通过 kmalloc 函数 来 分 配 一 块 内 存 时 ， 系 统 中 空闲 的 内 存 不 足以 满足 本 次 分 
配 的 情形 虽然 非 钊 少见 ， 但 是 毕竟 存在 这 种 可 能 性 ， 一 旦 这 种 可 能 性 被 确定 ，kmalloc 会 阻 
塞 从 而 会 被 切换 出 处 理 器 ， 如 果 kmalloc 的 调用 者 在 此 之 前 拥有 某 个 自 旋 锁 ， 那 么 这 种 情 
形 下 将 对 系统 的 稳定 性 造成 极 大 的 威胁 。 


如 此 ， 当 知道 一 个 自 旋 锁 在 中 断 处 理 的 上 下 文中 有 可 能 会 被 使 用 到 时 ， 应 该 使 用 
spin lock irq FA Zi, i4 AE spin_lock， 后 者 只 有 在 能 确定 中 断 上 下 文中 不 会 使 用 到 自 旋 锁 
的 情形 下 才能 使 用 。spin_lock irq 对 应 的 释放 锁 函 数 为 spin_unlock_irq， 其 接口 定义 为 


«include/linux/spinlock. h> 


= 一 本 和 一 


static inline void spin_unlock _irq(spinlock | t *lock) 


{ 





taw_spin_unlock_irq(&lock->rlock); 
} 


static inline void raw spin unlock irq (raw spinlock t *lock) 
{ 

do raw spin unlock(lock); 

local irq. enable(); 

preempt enable(); 
} 


可 见 ， 在 raw spin unlock irq 函数 中 除了 调用 do raw. spin unlock 做 实际 的 解锁 操作 外 ， 
还 会 打开 本 地 处 理 器 上 的 中 断 ， 以 及 开启 内 核 的 可 抢占 性 。 
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与 spin lock irq 类 似 的 还 有 一 个 spin lock irgsave 宏 ， 它 与 spin lock irq 函数 最 大 的 区 别 
是 ， 在 关闭 中 断 前 会 将 处 理 器 当前 的 FLAGS 寄存 器 的 值 保 存在 一 个 变量 中 ， 当 调用 对 应 
的 spin unlock irqrestore 来 释放 锁 时 ， 会 将 spin lock irqsave 中 保存 的 FLAGS 值 重 新 写 回 
到 寄存 器 中 。 对 于 spin lock irqsave 和 spin unlock irgrestore 的 使 用 场合 ， 可 参考 前 面 关于 
local irq save 和 local irq restore 的 讨论 。 


下 面 是 一 个 使 用 spin lock irqsave 和 spin unlock irqrestore 函数 的 具体 例子 : 
/定义 一 个 全 局 性 的 spinlock + 变量 my. lock 


spinlock t my lock; 


1 使 用 到 my. lock 锁 的 函数 
void demo_write(){ 
unsigned long flags; 


/1 进入 到 临界 区 之 前 调用 spin_lock_irqsave 来 获得 锁 
spin lock irqsave(&my lock, flags); 
IH NM REC 


i/ 完成 临界 区 中 的 操作 ， 准 备 离开 临界 区 ， 调 用 spin unlock irgrestore 来 释放 销 
spin_unlock_irgrestore(&my_lock,flags); 
} 


另 一 个 与 中 断 处 理 相关 的 spinlock 版 本 是 spin lock bh 函数 ， 该 函数 用 来 处 理 进程 与 延迟 
处 理 导致 的 并 发 中 的 互 斥 问题 。 相 对 于 spin lock irq AB, spin lock bh 用 来 关闭 softirg 
的 能 力 ， 关 于 softirq 将 在 “中 断 处理 ” 一 章 中 讲解 ， 此 处 只 要 知道 spin_lock bh 的 功能 就 
可 以 了 。 廊 了 国 数 的 上 锁 和 解锁 操作 分 别 是 


void spin lock bh(spinlock t *lock); 
void spin unlock bhí(spinlock t *lock); 


最 后 ， 上 自 旋 锁 还 设计 了 一 组 对 应 的 非 阻 塞 的 版 本 ， 分 别 是 


static inline int spin_trylock(spinlock_t *lock); 
static inline int spin_trylock_irq(spinlock_t *lock); 
spin_trylock_irqsave(lock, flags); 

int spin trylock bh(spinlock t *lock); 


这 些 非 阻塞 版 本 的 自 旋 锁 函数 在 试图 获得 一 个 锁 时 ， 如 果 发 现 该 锁 处 于 上 锁 状 态 ， 会 直接 
返回 0 而 不 是 自 旋 (spin)， 如 果 成 功 获得 锁 则 返回 1。 
4.3.3 单 处 理 器 上 的 spin lock 函数 


现在 讨论 单 处 理 器 上 的 spin lock 的 问题 ， 单 处 理 器 系统 可 分 为 内 核 不 可 抢占 及 可 抢占 两 
种 。 对 于 第 一 种 系统 而 言 ， 并 发 主要 来 源 于 外 部 中 斯 等 异步 事件 ， 所 以 在 这 种 系统 中 ， 在 
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进入 临界 区 时 只 需要 关闭 处 理 器 的 中 断 〈 调 用 local_irq_disable/local_irq_ save) 即 可 ， 在 离 
开 临 界 区 时 只 需要 打开 /恢复 处 理 器 的 中 断 〈 调 用 local irq enable/local irq restore). XT 
第 二 种 系统 ， 并 发 来 源 除了 中 断 与 异常 等 异步 事件 外 ， 还 包括 因为 可 抢占 性 导致 的 进程 加 
的 并 发 ， 所 以 在 这 种 系统 中 ， 在 进入 临界 区 时 除了 要 关闭 处 理 器 的 中 断 ， 还 需要 关闭 内 核 
调度 器 的 可 抢占 性 。 


Linux 内 核 为 了 统一 单 处 理 器 和 多 人 外 理 器 上 这 种 竞 态 处 理 的 代码 ， 将 spin lock 函数 及 其 变 
体 从 多 处 理 器 系统 延伸 到 了 单 处 理 器 上 。 对 于 单 处 理 器 而 言 ， 如 果 是 非 抢 占 式 系 统 ， 那 么 
spin lock/spin unlock 将 等 同 于 空 操 作 ; 而 对 于 内 核 可 抢占 的 系统 ，spin_lock/spin_unloek 
则 分 别 用 来 关闭 和 打开 可 抢占 性 ， 此 时 它们 等 同 于 preempt disable/preempt enable. m 
spin lock irg/spin lock irqsave 和 spin_unlock_irq/spin_unlock_restore 在 单 处 理 器 上 则 等 同 
于 local irq disable/local_irq_save fillocal_irq enable/local irq_restore。 如 果 是 可 抢占 式 系 统 ， 
那么 需要 在 上 述 的 中 断 控制 函数 后 再 加 上 对 内 核 可 抢占 性 的 preempt 操作 。 


为 了 方便 读者 阅读 ， 笔 者 将 此 处 具体 的 对 应 关系 简单 地 做 了 张 表格 ， 如 表 4-1 所 示 。 
表 4-1 多 处 理 器 与 单 处 理 器 上 的 spin_lock 


preempt disable do raw spin unlock 
spin. lock spin | preempt disable preempt enable 
| | do raw spin lock | preempt enable 


| local irq disable | do raw spin unlock 





| | | local irq disable | local_irq_enable 
spin lock irq | spin unlock irq | preempt disable | local irq enable 

| | | preempt disable preempt enable 
do raw spin lock preempt enable 


local irq save do raw spin unlock 


local inq save | local irq restore | 
spin lock irqsave spin unlock. irqrestore preempt disable local irmq restore | 


preempt disable preempt enable f 


do raw spin lock preempd enahle 


local bh disable do raw spin unlock | 
| local bh disable | local bh enable | 
spin lock bh "| spin unlock bh preempt disable | preempt enable | | 
| preempt_disable preempt_enable 
| do raw spin lock local bh enable | 


因此 从 代码 移植 性 的 角度 考虑 ， 即 使 在 单 处 理 器 上 只 需要 调用 
local irq disable/local irq enable 来 对 共 守 资源 进行 保护 时 ， 也 应 该 使 用 
spin lock irg/spin unlock irq 函数 ， 为 若 将 来 代码 移植 到 多 处 理 器 上 ， 则 
local_irq_disable/local_irq_enable 将 不 足以 保护 共享 资源 ， 届 时 需要 额外 修改 相应 的 代码 。 


4.34 ” 读 取 者 与 写 入 者 自 旋 锁 rwlock 


spin_lock 类 的 函数 在 进入 临界 区 时 ， 对 临界 区 中 的 操作 行为 不 作 细 分 ， 也 就 是 说 spin lock 
不 会 考虑 临界 区 中 代码 对 共享 资源 访问 的 具体 类 型 , 只 要 是 访问 共享 资源 , 就 执行 加 锁 操 作 。 
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但 是 有 些 时 候 ， 比 如 某 些 临 界 区 的 代码 段 只 是 去 读 这些 共 享 的 数据 ， 并 不 会 改写 ， 如 条 采 用 
spin lock 函数， 意味 着 任 一 时 刻 只 能 有 一 个 进程 可 以 读 取 这 些 共享 数据 ， 如 果 系 统 中 有 大 量 
对 这 些 共 享 资源 的 读 操作 , 很 明显 用 spin lock 将 会 降低 系统 的 性 能 。 在 对 共享 资源 访问 类 型 
( 读 或 者 写 ) 进行 细 分 的 基础 上 ， 提 出 了 所 谓 读 取 者 与 写 入 者 自 旋 锁 的 概念 rwlock。 


与 之 前 的 spin lock 类 比 起 来 ， 这 种 锁 比 较 有 意思 的 地 方 在 于 : 它 允 许 任意 数量 的 读 取 者 同 
时 进入 临界 区 ， 但 写 入 者 必须 进行 互 斥 访问 。 一 个 进程 想 去 读 的 话 ， 必 须 检 查 是 否 有 进程 
正在 写 ， 有 的 话 必须 自 旋 ， 否 则 可 以 获得 锁 。 一 个 进程 想 去 写 的 话 ， 必 须 先 检查 是 否 有 进 
程 正 在 读 或 者 写 ， 有 的 话 必须 上 自 旋 。 


相 比 较 spinlock, rwlock 在 锁 的 定义 以 及 irq 与 preempt 操作 方面 没有 任何 不 同 ， 唯 一 不 同 
的 是 ，rwlock 针对 读 和 写 都 设计 了 各 自 的 锁 操作 函数 ， 这 些 核 心 的 上 锁 / 解 锁 操作 都 是 平台 
相关 的 ， 下 面 以 ARM 处 理 器 为 例 ， 看 看 rwlock 的 实现 机 制 。 


先 看 写 入 者 的 上 锁 操 作 ， 


static inline int do raw write lock (raw rwlock t * rw) 


{ 


unsigned long tmp; 
| asm volatile ( 
LI "Ek idrex %0, [6] |n" 
I2 " teq %0, #0\n" 
L3 " strexeq 940,962, [%1]\n” 
L4 " teq 90, #0\n" 
La: 5 bne 1b" 
: "=&r" (tmp) 


: "r" (&rw-»lock), "r" (0x80000000) 


: "ec"h 


smp_mb(); 
} 
代码 先 在 L1 处 把 lock 的 值 读 进来 ， 然 后 在 L2 处 测试 它 是 香 为 0， 如 果 是 0〈 表 明 没有 人 
在 使 用 锁 ， 由 此 可 见 写 入 者 要 想 成 功 获得 锁 ， 必 须 保 证 此 前 没有 进程 正在 该 锁 上 进行 读 或 
者 写 ， 因 为 一 个 进程 不 管 因为 读 或 者 写 而 获得 锁 ， 都 会 改变 锁 的 值 使 之 不 为 0)， 那 么 在 L3 
处 用 0x80000000 去 更 新 lock 的 值 。 如 果 lock 的 值 不 为 0， 表 明之 前 该 锁 已 被 别 的 进程 所 
使 用 【〈 读 或 者 写 进程 )， 那 么 该 进程 将 执行 LS 进入 自 旋 状 态 ("bne 1b" 指 令 的 意思 是 跳 转 
到 后 面 的 标号 1 处 执行 )。L4 用 来 测试 更 新 lock 值 为 0x80000000 的 操作 是 否 成 功 , 关于 这 
个 测试 的 用 途 ， 在 spinlock 的 代码 中 已 详细 讨论 过 。 


写 入 者 的 解锁 操作 : 
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static inline int do raw write unlock (raw rwlock t * rw) 


{ 


smp_mb(); 


asm 


| . volatile ( 


"str Sol : [260] Wn" 


: "r" (&rw->lock), "r" (0) 


: "ee"; 


} 


代码 很 简单 ， 将 lock 的 值 设 为 0。 


再 看 读 取 者 的 上 锁 操 作 ; 


static inline void do raw read lock (raw rwlock t * rw) 


{ 


unsigned long tmp, tmp2; 


. asm volatile ( 
LI "l: Idrex %0, [962] n" 
La o7 adds %0, %0, #1\n" 
L3 strexpl %1, %0, [%2]\n" 
L4 rsbpls %0, %1, #0\n" 
Ls bmi tb" 


; "&r" (tmp), "=&r" (tmp?) 
: "r" (&rw-—lock) 


. n ec") : 


smp mb(); 


} 
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ANAS ETE L1 处 读 入 lock 的 值 ， 然 后 在 L2 处 将 lock 值 加 1 (因为 add HOM SRE 
s， 所 以 会 更 新 flag), L3 是 说 如 果 adds 更 新 flag 标志 导致 其 中 的 N=0， 那 么 就 执行 strex， 
f WB ARES. MATAR FO N=0 呢 ? 假设 result 是 前 面 adds 指令 的 运算 结果 ， 那 
^, N = (result & (1<<31))?1:0。 通 过 前 面 写 和 信者 的 上 锁 操 作 ， 显 然 在 有 写 入 者 占有 锁 的 情 
遍 下 《lock=0x80000000)，N=1， 这 种 情况 下 直接 到 LS 处 执行 ， 进 程 进入 自 旋 状 态 。 如 果 
没有 写 进 程 占有 锁 ， 则 基本 上 会 得 到 该 锁 〈 说 基本 上 ， 是 因为 还 存在 另 一 读 进程 与 当前 读 
进程 竞争 该 锁 的 可 能 性 ， 这 种 情况 下 的 处 理 依靠 的 是 L4 处 的 指令 ，L4 的 主要 目的 是 防止 
多 个 读 取 者 对 lock 值 更 新 可 能 引起 的 混乱 。 一 旦 一 个 读 取 者 进入 临界 区 ， 与 之 竞争 的 读 取 
者 随后 也 可 以 成 功 进入 )。 


读 取 者 解锁 操作 : 
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static inline void arch_read_unlock(raw_rwlock_t * rw) 


{ 


unsigned long tmp, tmp2; 


smp mb(); 
. asm  — volatile ( 
"lh: Idrex %0, [952] n" 
sub %0, %00, #1\n" 
strex %ol, %0, [%o2]\n" 
" teg 961, #0\n" 
? bne lb" 
: "=&r" (tmp), "=&r" (tmp2) 
: "r" (&rw->lock) » 
SUCCO ); 


} 


读 取 者 的 解锁 操作 主要 是 将 lock 值 减 1， 因 为 上 锁 时 读 取 者 的 操作 是 加 1。 但 是 因为 临界 
区 可 能 有 多 个 读 取 者 ， 所 以 此 处 应 该 注意 确保 多 个 读 取 者 对 lock 值 的 减 1 不 会 出 现 混乱 。 


相对 于 spinlock 的 多 个 版 本 ，rwlock 同样 有 多 个 版 本 。 对 于 读 取 者 ， 


void read_lock4(rwlock_t *lock); 

void read lock irq (rwlock t *lock); 

void read lock irqsave (rwlock t *lock, unsigned long flags); 
void read unlock (rwlock t *lock); 

void read unlock irq (rwlock t *lock); 


void read unlock irqrestore(rwlock t *lock, unsigned long flags); 


XPTHA: 


void write lock (rwlock t *lock); 

void write lock irq (rwlock t *lock); 

void write lock irqsave (rwlock t *lock, unsigned long flags); 
void write unlock (rwlock t *lock); 

void write unlock irq (rwlock t *lock); 

void write unlock  irgsave(rwlock t *lock, unsigned long flags); 


try 版 本 ; 


int read lock (rwlock t *lock); 
int write lock (rwlock t *lock); 


从 以 上 对 读 取 者 / 写 入 者 代码 的 实际 分 析 可 以 看 出 〈 假 设 针对 由 同一 读 / 写 锁 保 护 的 共享 资 
ig: 


4 实际 的 代码 中 是 个 宏 定 义 ， 此 处 是 宏 的 展开 形式 。 下 同 。 
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Cl) 如 果 当 前 有 进程 正在 写 ， 那 么 其 他 进程 就 不 能 读 ， 当 然 也 不 能 写 。 

(2) 如 宁 当 前 有 进程 正在 读 ， 那 么 其 他 进程 可 以 该， 但 是 不 能 写 。 

如 此 ， 当 一 个 进程 试图 号， 只 要 有 其 他 进程 正在 读 或 者 正在 写 ， 它 都 必须 自 旋 。 
如 此 ， 当 一 个 进程 试图 读 ， 只 要 没有 其 他 进程 正在 号 ， 它 都 可 以 获得 锁 。 


因此 从 概率 上 讲 ， 当 一 个 进程 试图 号 时 ， 成 功 获得 锁 的 概率 要 低 于 一 个 进程 试图 读 。 在 一 
个 读 / 写 相互 依赖 的 生产 者 与 消费 者 系统 ， 这 种 设计 思想 会 在 一 定 程度 上 导致 读 取 者 饥饿 
(没有 数据 可 读 )。 所 以 ， 在 一 个 存在 大 量 读 取 操 作 而 数据 的 更 新 较 少 发 生 的 系统 中 ， 使 用 
读 /号 锁 对 共享 资源 进行 保护 ， 相 对 普通 形式 的 自 旋 锁 ， 无 疑 会 大 大 提升 系统 性 能 。 


44 ”信号 量 (semaphore) 


相对 于 目 旋 锁 ， 信 和 号 量 的 最 大 特点 是 允许 调 用 它 的 线程 进入 睡眠 状态 。 这 意味 着 试图 获得 
某 一 信号 量 的 进程 会 导致 对 处 理 器 拥有 权 的 丧失 ， 也 即 出 现 进程 的 切换 。 


44.1 信号 量 的 定义 与 初始 化 


信号 量 的 定义 如 下 : 


‘Sinclude/linux/semaphore. h> 


a de Re ee m3 om omo 


struct semaphore 1 


Se o A oL X A A Rol ee — — - - — Keer WOH mol Lo ol 2 — o 2- — 4 € -" eee ee ee 


spinlock t lock; 

unsigned int count; 

struct list head — wait list; 
h 


其 中 ，lock 是 个 自 旋 锁 变量 ， 用 于 实现 对 信号 量 的 另 一 个 成 员 count 的 原子 操作 。 
ATT Ss SAE count 用 于 表示 通过 该 信号 量 允 许 进 入 临界 区 的 执行 路 径 的 个 数 。 
wait list 用 于 管理 所 有 在 该 信号 量 上 睡眠 的 进程 , 无 法 获得 该 信号 量 的 进程 将 进入 睡眠 状态 。 


如 果 驱 动 程序 中 定义 了 一 个 struct semaphore 型 的 信号 量变 量 , 需要 注意 的 是 不 要 直接 对 该 变 
量 的 成 员 进行 赋值 ， 而 应 该 使 用 sema. init 函数 来 初始 化 该 信号 量 。sema init 函数 定义 如 下 ; 


«include/linux/semaphore. h> 


see ode Gn TROU eee de de eee eee eee Lo — eR noL oL Lo eer Boom ee ee eee eee eee ee ee eee 


static inline void sema_init(struct semaphore *sem, int val) 


{ 
static struct lock class key _ key; 


*sem = (struct semaphore) SEMAPHORE INITIALIZER(*sem, val); 
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lockdep init map(&sem--lock.dep map, "semaphore--lock", & — key, 0); 
} 


韧 始 化 主要 通过 SEMAPHORE INITIALIZER 宏 完 成 : 


#define SEMAPHORE INITIALIZER(name, n) A 
1 \ 
lock =  SPIN LOCK UNLOCKED((name).lock), A 
count =n, \ 
wait list = LIST HEAD INIT((name).wait list), \ 
} 


所 以 sema_init(struct semaphore *sem, int val) 调 用 会 把 信号 量 sem 的 lock 值 设 定 为 解锁 状 
态 ，count 值 设 定 为 函数 的 调用 参数 val， 同 时 初始 化 wait list 链表 头 。 


4.4.2 DOWN 操作 


信号 量 上 的 主要 操作 是 DOWN 和 UP， 在 Linux 内 核 中 对 信号 量 的 DOWN 操作 有 : 


void down(struct semaphore *sem); 

int down_interruptible(struct semaphore *sem); 

int down_killable(struct semaphore *sem); 

int down_trylock(struct semaphore *sem); 

int down_timeout(struct semaphore *sem, long jiffies); 


FARER, WEAR A) down_interruptible 函数 ， 本 节 将 重点 讨论 该 函 
数 ， 之 后 再 对 其 他 DOWN 操作 的 功能 作 一 概述 性 的 描述 。 


down interruptible 函数 定义 如 下 : 


<kernel/semaphore.c> 


-TT 


int down_interruptible(struct semaphore *sem) 
{ 

unsigned long flags; 

int result = 0; 


spin lock irqsave(&sem-»lock, flags); 
if (likely(sem->count > 0)) 
sem--count--; 
else 
result - down interruptible(sem); 
spin unlock irgrestore(&sem-»lock, flags); 


return result; 


j 
RRS FBI spin lock irqsave 的 调用 来 保证 对 sem->count 操作 的 原子 性 ， 防 止 多 个 进 
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程 对 sem->count 同时 操作 可 能 引起 的 混乱 。 如 果 代 码 成 功 进 入 临界 区 ， 则 判断 sem->count 
ERT 0: WR count 大 于 0， 表 明 当 前 进程 可 以 获得 信号 量 ， 就 将 count 值 减 1， 然 后 
退出 ;如 果 count 不 大 于 0, 表明 当前 进程 无 法 获得 该 信号 量 , 此 时 调用 _down_interruptible， 
由 后 者 完成 一 个 进程 无 法 获得 信号 量 时 的 操作 ， 在 内 部 调用 _ down_common(struct 
semaphore *sem, long state, long timeout)， 调 用 时 的 参数 state = TASK_INTERRUPTIBLE, 

timeout = LONG MAX 。 所 以 当 一 个 进程 无 法 获得 信号 量 时 ， 最 终 调 用 的 函数 为 


__down_common: 


<kernel/semaphore.c> 


ee -—-—& =e +r 


long timeout) 
{ 
struct task struct *task = current; 
struct semaphore waiter waiter; 


list add tail(&waiter.list, &sem-»wait list); 
waiter.task — task; 
waiter.up = 0; 


for (;;) { 
if (signal pending, state(state, task)) 
goto interrupted; 
if (timeout <= 0) 
goto timed out; 
. set task state(task, state); 
spin unlock irg(&sem-»lock); 
timeout = schedule timeout(timeout); 
spin lock irq(&sem-»lock); 
if (waiter.up) 
return 0); 
) 


timed out: 
list dei(&waiter.list); 
return -ETIME; 


interrupted: 
list del(&waiter.list); 
return -EINTR; 
j 
PRAY AU DARE AE. HAM — T struct semaphore waiter 变量 waiter 的 使 用 ， 把 当前 进程 放 
到 信号 量 sem 的 成 员 变量 wait list 所 管理 的 队列 中 ， 接 着 在 一 个 for 循环 中 把 当前 进程 的 
状态 设置 为 TASK_INTERRUPTIBLE， 再 调用 schedule timeout 使 当前 进程 进入 睡眠 状态 ， 
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函数 将 停留 在 schedule timeout 调用 上 , 直到 再 次 被 调度 执行 。 当 该 进程 绸 一 次 被 调度 执行 
时 , schedule timeout 开始 返回 , 接 下 来 根据 进程 被 再 次 调度 的 原因 进行 处 理 : 如 果 waiterup 
不 为 0, 说 明 进 程 在 信号 量 sem 的 wati_list 队列 中 被 该 信号 量 的 UP 操作 所 唤醒 , 进程 可 以 
获得 信号 量 ， 返 回 0。 如 果 进 程 是 因为 被 用 户 空间 发 送 的 信和 号 所 中 断 或 者 是 超时 引起 的 唤 
BE, 则 返回 相应 的 错误 代码 。 因 此 对 down_interruptible 的 调用 总 是 应 该 坚持 检查 其 返回 值 ， 
以 确定 函数 是 已 经 获得 了 信号 量 还 是 因为 操作 被 中 断 因而 需要 特别 处 理 ， 通 常 驱动 程序 对 
返回 的 非 0 值 要 做 的 工作 是 返回 -ERESTARTSYS5， 比 如 下 面 的 代码 段 : 


1 定义 一 个 信号 量 

struct semaphore demosem; 

sema init(&demosem, 2); 

if (down interruptible (&demosem)) 
return -ERESTARTSYS; 


然而 对 down interruptible 的 调用 最 常见 的 可 能 还 是 返回 0 表明 调用 者 获得 了 信和 号 量 。 为 了 
让 讨论 具体 化 ， 下 面 以 一 个 例子 来 说 明 ， 假 设 一 个 信号 量 sem 的 count=2， 说 明 允 许 有 两 
个 进程 进入 临界 区 ， 假 设 有 进程 A、B、C、D 和 忆 先 后 调用 down interruptible 来 获得 信号 
量 ， 那 么 进程 A 和 了 B 将 得 到 信号 量 进 入 临界 区 ，C、D Al E 将 睡眠 在 sem 的 wait. list 中 ， 
此 时 的 情形 如 图 4-2 Bas: 





图 4-2 信号 量 上 的 睡眠 进程 


在 接 下 来 的 UP 操作 中 还 会 用 到 这 里 的 例子 ， 来 讨论 进程 A 和 B 结束 临界 区 中 的 操作 返回 
时 执行 UP 操作 对 wait list 中 进程 C、D ME 的 影响 。 


在 讨论 完 驱动 程序 最 常 使 用 的 down_interruptible 函数 之 后 ， 再 回 过 头 来 看 看 其 他 几 种 
DOWN E: | 


void down(struct semaphore *sem) 


与 down interruptible 相 比 ，down 函数 是 不 可 中 断 的 ， 这 意味 着 调用 它 的 进程 如 果 无 
法 获得 信和 号 量 ,， 将 一 直 处 于 睡眠 状态 直到 有 别 的 进程 释放 了 该 信号 量 。 从 用 户 空间 的 角度 ， 
如 果 应 用 程序 阻塞 在 了 驱动 程序 的 down 函数 中 ， 将 无 法 通过 一 些 强制 措施 比如 技 Ctrl+D 
组 合 键 等 来 结束 该 进程 。 因 此 ， 除 非 必 要 ， 否 则 驱动 程序 中 应 该 避免 使 用 down BK. 


S 返回 -ERESTARTSYS 只 是 若干 措施 中 最 常见 的 一 种 ， 还 有 其 他 返回 值 可 用 ， 比 如 -EAGAIN 和 -EINTR。 驱 动 程序 应 该 
根据 实际 情况 作出 选择 。 
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int down_killable(struct semaphore *sem) 


睡眠 的 进程 可 以 因 收 到 一 些 致命 性 信号 〈fatal signal) 被 唤醒 而 导致 获取 信号 量 的 操作 
税 中 断 ， 在 驱动 程序 中 极 少 使 用 。 


int down_trylock(struct semaphore *sem) 


进程 试图 获得 信号 量 ， 但 车 无法 获得 信号 量 则 直接 返回 1 而 不 进入 睡眠 状态 ， 返 回 0 
意味 着 函 数 的 调用 者 已 经 获得 了 信和 号 量 。 | 


int down timeout(struct semaphore *sem, long jiffies) 


函数 在 无 法 获得 信号 量 的 情况 下 将 进入 睡眠 状态 , 但 是 处 于 这 种 睡眠 状态 有 时 间 限 制 |， 
如 果 在 jiffies 指明 的 时 间 到 期 时 函数 依然 无 法 获得 信号 量 ， 则 将 返回 一 错误 码 -ETIME， 在 
到 期 前 进程 的 睡眠 状态 为 TASK UNINTERRUPTIBLE。 成 功 获得 信和 号 量 的 函数 返回 0。 


4.4.3 UP 操作 
相对 众多 版 本 的 DOWN 操作 ，Linux 下 只 有 一 个 UP 函数 ; 


<kernel/semaphore.c> 


a eT me m m momo m 


void up(struct semaphore *sem) 


{ 
unsigned long flags; 


spin_lock_irgsave(&sem->lock, flags); 
if (likely(list_empty(&sem->wait_list))) 
sem->count++; 
else 
— up(sem); 
spin unlock irqrestore(&sem--lock, flags); 
} 


如 全 信号 量 sem 的 wait list 队列 为 室 ， 则 表明 没有 其 他 进程 正在 等 待 该 信号 量 ， 那 么 只 要 
把 sem 的 count 加 1 即 可 。 如 果 wait list 队列 不 为 空 , 则 说 明 有 其 他 进程 正 睡眠 在 wait list 
上 等 待 该 信号 量 ， 此 时 调用 _up(sem) 来 唤醒 进程 : 


<kernel/semaphore.c> 


eee ee ee ww we ee eR RR ee a e 


static noinline void _ sched — up(struct semaphore *sem) 


{ 


ma de ge Ay wm dep es ee Tc n 


struct semaphore waiter *waiter = list first entry(&sem--wait list, 
struct semaphore waiter, list); 

list del(&waiter-list); 

waiter->up = 1; 

wake up _process(waiter->task); 
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} 


下 面 在 图 4-2 的 基础 上 讨论 此 处 的 操作 。__up 函数 首先 用 list_first_entry 取得 sem->wait_list 
链表 上 的 第 一 个 waiter 节点 C， 然 后 将 其 从 sem->wait list 链表 中 删除 ，waiter->up = 1， 最 后 
调用 wake up process 来 唤醒 waiter C 上 的 进程 C。 这 样 进程 C 将 从 之 前 down_interruptible 
调用 中 的 timeout = schedule timeoutltimeoub 处 醒 来 ，waiter>up = 1; dowm interruptible 返回 
0, 进程 C 获得 信号 量 , 进程 D 和 下 继续 等 待 直到 有 进程 释放 信号 量 或 者 被 用 户 空 间 中 断 掉 。 


即使 不 是 信号 量 的 拥有 者 ,也 可 以 调用 up 函数 来 释放 一 个 信号 量 , 这 点 与 下 节 介 绍 的 mutex 
是 不 同 的 。 


在 Linux 系统 中 ,信号 量 的 一 个 常见 的 用 途 是 实现 互 斥 机 制 ， 这 种 情况 下 信号 量 的 count 
值 为 1， 也 就 是 任意 时 刻 只 人 允许 一 个 进程 进入 临界 区 。 为 此 Linux 内 核 源 码 提 供 了 一 个 宏 
DECLARE_MUTEX， 专 门 用 于 这 种 用 途 的 信号 量 定义 和 初始 化 : 


<include/linux/semaphore.h> 


SS MU M Ll lul Iu Gul ZBL CL GG LGLLGLLLGLL ILU, 和 


#define DECLARE MUTEX(name)\ 
struct semaphore name= SEMAPHORE_INITIALIZER(name, 1) 


该 宏 定 义 了 一 个 count=1 的 信号 量变 量 name， 并 初始 化 了 相关 成 员 。 所 以 接 下 来 就 可 以 使 
用 信号 量 的 DOWN 和 UP 操作 来 实现 互 斥 , 比如 下 面 的 这 个 用 DECLARE MUTEX 定义 的 
信和 号 量 来 实现 互 斥 的 代码 段 : 


1/ 先 用 DECLARE MUTEX 定义 一 个 全 局 性 的 信号 量 demo sem 
DECLARE MUTEX(demo_sem); 


i/ 函数 demo write 里 使 用 demo sem 作 互 斥 用 
int demo_write() 
{ 
/打算 进入 临界 区 ， 调 用 down_interruptible 获得 信号 量 
if (down_interruptible (&demo_sem)) 
retum -ERESTARTSYS; 


/成 功 获得 信号 量 进 入 临界 区 


/离开 临界 区 ， 调 用 up RRS € 
up(&demo sem); 


444 读 取 者 与 写 入 者 信号 量 rwsem 


如 同 spinlock 一 样 ， 如 果 对 操作 共享 资源 的 访问 类 型 进行 细 分 ， 在 普通 信号 量 的 基础 上 可 
以 实现 读 取 者 与 号 入 者 信号 量 。 这 里 的 概念 完全 等 同 于 读 取 者 与 写 人 者 自 旋 锁 ， 所 以 下 面 
将 不 再 仔细 讨论 读 取 者 与 写 入 者 信号 量 的 实现 机 制 。 
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读 取 者 与 写 入 者 信号 量 的 定义 如 下 : 


<include/linux/rwsem-spinlock.h> 
struct rw_semaphore { 
832 activity; 
spinlock t wait lock; 
struct list head wait list; 


h 
其 中 activity HAMA X E 
€ activity=0， 表 明 当前 在 该 信号 量 上 没有 任何 活动 的 读 取 者 或 者 是 写 入 者 。 
€ ”activity=-1， 表 明 当 前 在 该 信号 量 上 有 一 个 活动 的 写 入 者 。 
€ activity 为 正 值 n， 表 明 当 前 信号 量 上 有 个 活动 的 读 取 者 。 
静态 定义 一 个 rwsem 变量 同时 用 DECLARE, RWSEM 宏 进 行 初始 化 : 


me <include/linux/nwsem-spiniock.h> 
#define RWSEM _INITIALIZER(name) V 
(0, SPIN LOCK UNLOCKED(name.wait lock), LIST HEAD INIT((name).wait list) V 


. RWSEM DEP MAP INIT(name) } 


#define DECLARE RWSEM(name) \ 
struct rw semaphore name = RWSEM INITIALIZER(name) 


对 一 个 rwsem 变量 动态 初始 化 使 用 init rwsem 宏 ， 其 展开 形式 为 


void init rwsem(struct rw_semaphore *sem) 
{ 
sem->activity = 0; 
spin_lock_init(&sem->wait_lock); 
INIT LIST HEAD(&sem--wait list); 
) 


rwsem 的 初始 状态 是 没有 任何 活动 的 读 取 者 与 写 入 者 。 
读 取 者 的 DOWN 操作 : 


void sched down read(struct rw semaphore *sem); 
int down read trylock(struct rw semaphore *sem); 


读 取 者 的 UP 操作 : 
void up read(struct rw semaphore *sem); 


t3 AGER DOWN 操作 ; 


hoc HOPH Go dB di db CES Ha Re Ra da da e da dd oce o ud d 4e oso Romo o ommo m Ro 
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void — sched down write(struct rw semaphore *sem); 


int down write trylock(struct rw semaphore *sem); 


5 AAW UP 操作 : 


void up_write(struct rw_semaphore *sem) 


45 BF mutex 


用 count=1 的 信号 量 实 现 的 互 斥 方法 还 不 是 Linux 下 经 典 的 用 法 ，Linux 内 核 针 对 count=1 
的 信号 量 重新 定义 了 一 个 新 的 数据 结构 struct mutex， 一 般 都 称 其 为 互 斥 锁 或 者 互 斥 体 。 同 
时 内 核 根据 使 用 场景 的 不 同 ， 把 用 于 信和 号 量 的 DOWN 和 UP 操作 在 struct mutex 上 作 了 优 
化 与 扩展 ， 专 门 用 于 这 种 新 的 数据 类 型 。 


4.5.1 互 斥 锁 的 定义 与 初始 化 


HJW mutex 的 概念 本 来 就 来 自 semaphore， 如 果 去 除 掉 那些 跟 调 试 相关 的 成 员 ，struct 
mutex 和 struct semaphore 并 没有 本 质 的 不 同 : 


<include/linux/mutex.h> 


于 


struct mutex { 
/* 1: unlocked, 0: locked, negative: locked, possible waiters */ 
atomic_t count; 
spinlock t wait lock; 


struct list head — wait list; 

#if defined(CONFIG DEBUG MUTEXES) || defined(CONFIG SMP) 
struct thread info *owner; 

#endif 

E 


如 同 struct semaphore 一 样 ， 对 struct mutex 的 初始 化 不 能 直接 通过 操作 其 成 员 变 量 的 方式 
进行 ， 而 应 该 利用 内 核 提供 的 宏 或 者 函数 。 


定义 一 个 静态 的 struct mutex 变量 同时 初始 化 的 方法 是 利用 内 核 的 DEFINE_MUTEX: 


<include/linux/mutex.h> 
#define MUTEX_INITIALIZER(lockname) \ 
{ .count = ATOMIC INIT(1), \ 
-wait lock= SPIN LOCK UNLOCKED(lockname.wait_lock), \ 
wait list = LIST HEAD INIT(lockname.wait list) \ 
) 


#define DEFINE MUTEX(mutexname) | 
struct mutex mutexname =  MUTEX INITIALIZER(mutexname) 
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如 果 在 程序 执行 期 间 要 初始 化 一 个 mutex 变量 ， 则 可 以 使 用 mutex_init 宏 。 去 除 掉 那 些 与 
调试 相关 的 操作 之 后 ，mutex_init 宏 可 以 展开 成 如 下 的 函数 定义 形式 : 


void mutex_init(struct mutex *lock) 


{ 
atomic_set(&lock->count, 1); 
spin lock init(&lock-»wait lock), 
INIT LIST HEAD(&lock--»wait list); 
} 


4.5.2 互 斥 锁 的 DOWN 操作 


互 斥 锁 mutex 上 的 DOWN 操作 在 Linux 内 核 中 为 mutex lock Ei, ig X. n FP: 


<kernel/mutex.c> 


Dm he sia ee ee i ed wi a eh tie Dt iS ee Be si i wk ai he wi es 


void sched mutex lock(struct mutex *lock) 
{ 
might sleep(); 
J* 
* The locking fastpath is the 1->0 transition from 
* ‘unlocked’ into ‘locked’ state. 
+; 


__mutex_fastpath_lock(&lock->count, _mutex_lock_slowpath); 
mutex set owner(lock); 


} 


国 数 的 设计 思想 体现 在 _mutex_fastpath lock 和  mutex lock slowpath 两 条 主线 上 ， 
. mutex fastpath lock 用 来 快速 判断 当前 可 否 获 得 互 斥 锁 ， 如 果 成 功 获 得 锁 ， 则 函数 直接 
返回 ， 盏 则 进入 到 ”mutex_lock_slowpath 函数 中 。 这 种 设计 是 基于 这 样 一 个 事实 : 想 要 获 
得 某 一 互 斥 锁 的 代码 绝 大 部 分 时 候 都 可 以 成 功 获得 。 由 此 延伸 开 来 在 代码 层面 就 是 ， 
mutex lock 图 数 进入 ”mutex lock slowpath 的 概率 很 低 。 


. mutex fastpath lock 是 一 平台 相关 函数 ， 下 面 以 ARM 处 理 器 为 例 ， 分 析 其 代码 实现 ， 


<arch/arm/include/asm/mutex.h> 


static inline void — mutex fastpath lock(atomic t *count, void (*fail fnXatomic t *y) 


{ 


int ex flag, res; 


_ asm_ ( 
Ll  "ldrex?90, [792] Anit” 
L2 "sub 990, 990, #1 \n\t" 


L3  "strex?ol, 790, [792]  " 


: "=&r" ( res) "—&r'( ex flag) 
: "T" (&(count)-^counter) 
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: "cc", "memory" ); 


. res] ex flag; 
if(unlikely( res != 0)) 
fail fn(count); 
} 


函数 在 工 1 处 通过 ldrex 完成 “res = count->counter, L2 处 完成 _res =  res-l, L3 处 试图 
HH res 的 当前 值 来 更 新 count->counter。 这 里 说 “试图 ”是 因为 这 个 更 新 的 操作 未 必 会 成 
功 ， 主 要 是 考虑 到 可 能 有 别 的 进程 也 在 操作 count->counter， 为 不 使 这 种 可 能 的 竞争 引起 对 
count->counter 值 更 新 的 混乱 ,这 里 用 了 ARM 指令 中 用 于 实现 互 斥 访问 的 指令 ldrex 和 strex 
(前 面 在 spiniock 的 代码 分 析 时 已 经 担 过)。ldrex 和 strex 保证 了 对 count->counter f] ^ ix EX 
一 更 新 一 写 回 ”操作 序列 的 原子 性 。 如 果 L3 处 的 更 新 操作 成 功 ， 那 么 ex flag 将 为 0。 


接 下 来 在 _res |= ex flag 执行 完 之 后 ， 通 过 站 语句 判断 _res 是 否 为 0， 有 两 种 情况 会 导 
SX res 不 为 0: 一 是 在 调用 这 个 函数 前 count->counter=0, 表明 互 斥 锁 已 经 被 别 的 进程 获得 ， 
这 样 L2 处 的 _res = -1; 二 是 在 L3 处 的 更 新 操作 不 成 功 ,表明 当前 有 另外 一 个 进程 也 在 对 
count->counter 进行 同样 的 操作 。 这 两 种 情况 都 将 导致 _mutex_fastpath_lock 不 能 直接 返回 ， 
而 是 进入 fal fn， 也 就 是 调用 _ mutex_lock_slowpath。 


此 处 if 语句 中 的 unlikely 是 利用 GCC 编译 优化 扩展 的 一 个 宏 ， 这 里 的 意思 是 条 件 语句 
_res!=0 为 真 的 可 能 性 很 小 , 编译 器 借 此 可 以 调整 一 些 编译 后 代码 的 顺序 达到 某 种 程度 的 
优化 。 与 之 对 应 的 是 likely。 


如 果  mutex fastpath lock 函数 不 能 在 第 一 时 间 获 得 互 斥 锁 返 回 ， 那 么 将 进入 
_mutex_lock_slowpath， 正 如 其 名 字 所 预示 的 那样 ， 代 码 将 进入 一 段 艰 难 坎坷 的 旅途 。 


在 Linux 源码 中 ，_mutex_lock slowpath 函数 与 信号 量 DOWN 操作 中 的 down 函数 非常 相 
似 ， 不 过 mutex_lock slowpath 在 把 当前 进程 放 入 mutex 的 wait list 之 前 会 试图 多 次 询问 
mutex 中 的 count 是 否 为 1， 也 就 是 说 当前 进程 在 进入 wait list 之 前 会 多 次 考察 别 的 进程 是 
否 已 经 释放 了 这 个 互 斥 锁 。 这 主要 基于 这 样 一 个 事实 : 拥有 互 斥 锁 的 进程 总 是 会 在 尽 可 能 
短 的 时 间 里 霖 放 。 如 果 别 的 进程 已 经 释放 了 该 互 斥 锁 ， 那 么 当前 进程 将 可 以 获得 该 互 斥 锁 
而 没有 必要 再 去 睡眠 。 


4.5.3 E FESUES UP 操作 
互 斥 锁 的 UP 操作 为 mutex unlock, MAE X nr: 


<kernel/mutex.c> 


ll i ee M l l l l l l l l i l i l i e e e l MM l Ml [lil o 


void — sched mutex_unlock(struct mutex *lock) 


{ 
/* 
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* The unlocking fastpath is the 0->1 transition from ‘locked’ 
* into 'unlocked' state: 
*/ 
#ifndef CONFIG_ DEBUG MUTEXES 
/* 
* When debugging is enabled we must not clear the owner before time, 
* the slow path will always be taken, and that clears the owner field 
* after verifying that it was indeed current. 
*/ 
mutex clear owner(lock); 
#endif 
__mutex_fastpath_unlock(&lock->count, ^ mutex_unlock_slowpath); 
} 


和 mutex lock 函数 一 样 ，mutex_unlock 函数 也 有 两 条 主线 : — mutex fastpath unlock 和 
_mutex_unlock_slowpath， 分 别 用 于 对 互 斥 锁 的 快速 和 慢 速 解锁 操作 。 


. mutex fastpath unlock 定义 如 下 : 


<arch/arm/include/asm/mutex.h> 
static inline void 
. mutex fastpath unlock(atomic t *count, void (*fail fn)(atomic t *)) 


{ 


int ex flag, res, orig; 


"Idrex%0, [103] — nt" 

"add Yel, 990, #1 \n\t" 

"strex %2, %61, [963] 

:"=€r" (_ orig), "—&r"( res) "—&r"( ex flag) 
: "r" (&(count)-7counter) 

: "ce", "memory" ); 


__orig |= ex flag; 
if (unlikely( orig != 0)) 
fail fn(count); 
) 


这 里 除了 是 将 count->counter 的 值 加 1 以 外 ,代码 和 ”mutex_fastpath lock 中 的 几乎 完全 一 
样 。 在 最 后 的 让 语句 中 ， 导 致 代码 中 _ orig 不 为 0 也 有 两 种 情况 :一 是 在 调用 这 个 函数 前 
count->counter 不 为 0， 表明 在 当前 进程 占有 互 斥 锁 期 间 有 别 的 进程 竞争 该 互 斥 锁 ;， 二 是 对 
count->counter 的 更 新 操作 不 成 功 ， 表 明 当 前 有 另外 一 个 进程 也 在 对 count->counter 进行 操 
作 ， 这 种 情况 主要 是 针对 别 的 进程 此 时 调用 mutex_lock 函数 导致 的 竞争 ， 因 为 互 斥 的 原因 
别 的 进程 此 时 不 可 能 调用 mutex_unlock。 这 种 情况 的 处 理 是 非常 重要 的 ， 不 只 是 关系 到 
count->counter 正确 更 新 的 问题 ， 还 涉及 能 和 否 防 止 一 个 唤醒 操作 的 丢失 。 
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在 没有 别 的 进程 竞争 该 互 斥 锁 的 情况 下 ， mutex fastpath unlock. 函数 要 完成 的 工作 最 简 
单 ， 把 count->counter 的 值 加 1 然后 返回 。 如果 有 别 的 进程 在 竞争 该 互 斤 锁 , 那么 函数 进入 
__mutex_unlock_slowpath， 这 个 函数 主要 用 来 唤醒 在 当前 mutex 的 wait list 中 休眠 的 进程 ， 
如 同 up 函数 一 样 。 


4.6 ”顺序 锁 seqlock 


顺序 锁 的 设计 思想 是 ， 对 某 一 共享 数据 读 取 时 不 加 锁 ， 写 的 时 候 加 锁 。 为 了 保证 读 取 的 过 
程 中 不 会 因为 写 入 者 的 出 现 导 至 该 共 语 数据 的 更 新 ， 需 要 在 读 取 者 和 写 入 者 之 间 引 入 一 整 
型 变量 ， 称 为 顺序 值 sequence。 读 取 者 在 开始 读 取 前 读 取 该 sequence， 在 读 取 后 再 重读 该 
值 ， 如 果 与 之 前 读 取 到 的 值 不 一 致 ， 则 说 明 本 次 读 取 换 作 过 程 中 发 生 了 数据 更 新 ， 读 取 操 
作 无 效 。 因 此 要 求 瑟 入 者 在 开始 写 入 的 时 候 要 更 新 sequence 的 值 。 


Linux 内 核 中 seqlock 定义 如 下 : 


<include/linux/seqlock.h> 


pi ei? ae i i ee ds is ys eM = i ia? ae gh cut me i ae a ea pe ee oe ey ig ea cee ec 


typedef struct { 
unsigned sequence; 
spinlock t lock; 


} seglock t; 
无 符号 型 整数 sequence 用 来 协调 读 取 者 与 写 入 者 的 操作 ，spinlock 变量 lock 在 多 个 写 入 者 
之 间 做 互 斥 使 用 。 
程序 中 如 果 想 静态 定义 一 个 seqlock 并 同时 初始 化 ， 可 以 使 用 DEFINE SEQLOCK X. iX 
宏 会 定义 一 个 seqlock_t 型 变量 并 初始 化 其 sequence 为 0，lock 为 06; 
<include/linuWseqlock.h> — ^ ^4 
define DEFINE SEQLOCK (x) 


seglock tx= SEQLOCK. UNLOCKED(x) 


Hdefine _SEQLOCK UNLOCKED(lockname) V 
(0, SPIN LOCK UNLOCKED(lockname) } 


如 果 要 动态 初始 化 一 个 seglock 变量 ， 可 以 使 用 seqlock init: 


#define seqlock_init(x) ee ee ee eet eee oe Oe 
do { \ 
(x)->sequence = 0; i 


6 自 旋 锁 在 解锁 与 上 锁 状态 时 的 数值 其 实 依赖 于 具体 的 实现 ， 大 部 分 情况 下 解锁 状态 时 的 值 为 0， 上 锁 状 态 为 1， 
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spin lock init(&(x)->lock); \ 
} while (0) 


下 面 看 看 写 入 者 在 seglock 上 的 上 锁 操 作 write seglock: 


<include/linux/seqlock.h> 


ee | 


static inline void write seglock(seglock t *sl) 


{ 
spin_lock(&sl->lock); 
++8]->sequence; 
smp wmb(); 

} 


写 入 者 在 对 写 之 前 需要 先 获得 seqlock 上 的 自 旋 锁 lock, 这 说 明 在 写 入 者 之 间 必 须 保证 互 斥 
操作 ， 如 果 某 一 写 人 者 成 功 获得 lock， 那 么 需要 更 新 sequence 的 值 以 便 让 其 他 写 入 者 知道 
FBR RE ST BH. SAG SKAR LHA fr sequence. 


号 入 者 在 seqlock 上 的 解锁 操作 write sequnlock: 
<include/linux/seqlock. h> 


static inline void write sequnlock(seglock t*sl) = |§ = 
{ 

smp_wmb(); 

sl->sequencet+; 

spin unlock(&sl-»lock); 


} 


主要 的 工作 是 释放 自 旋 锁 lock， 至 于 写 入 者 对 sequence 的 更 新 ， 主 要 是 用 来 告诉 读 取 者 有 
数据 更 新 发 生 ， 所 以 必须 确保 sequence 的 值 在 写 入 的 前 后 发 生变 化 。 在 此 基础 上 sequence 
提供 的 男 外 一 个 信息 是 瑟 入 过 程 有 没有 结束 ， 这 是 用 sequence 的 最 低位 来 完成 的 ， 如 果 
sequence & 0 为 0 表明 写 入 过 程 已 经 结束 ， 殖 则 表明 写 入 过 程 正在 进行 。 接 下 来 会 在 读 取 
者 的 seglock 操作 函数 中 看 到 sequence 的 这 两 种 用 途 ， 


某 一 写 入 者 可 以 使 用 write tryseglock 来 保证 在 无 法 获得 lock 时 不 让 自己 进入 自 旋 状态 ( 当 
然 也 就 无 法 更 新 数据 〉 而 直接 返回 0， 成 功 获 得 锁 则 返回 1: 


<include/linux/seqlock.h> 


static inline int write tryseglock(seglock t*sl) #8 $§8 = = 
{ 
int ret = spin_trylock(&sl->lock); 


if (ret) { 
++s]->sequence; 
smp wmb(); 

} 

return ret; 
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} 
读 取 者 在 读 取 开 始 前 需要 先 调用 read_seqbegin 函数 ， 该 函数 主要 用 来 返回 读 取 开 始 之 前 的 


sequence f& : 


<include/linux/seqlock.h> 


static _always_ inline unsigned read_seqbegin(const seglock t *sl) 


i 


— — Fw 2 mom n mon m oL OA od a ee ee oec 


unsigned ret; 


repeat: 
ret = sl->sequence; 
smp rmb(); 
if (unlikely(ret & 1)) ( 
cpu relax(); 
goto repeat; 


} 


从 函数 的 实现 也 可 以 看 出 ， 如 果 当 前 正好 有 写 入 者 在 进行 写 操作 ， 那 么 该 函数 将 不 停 循环 
直到 写 过 程 结 束 ， 前 面 曾 提 到 sequence 最 低位 的 用 途 ， 这 里 正好 是 其 实际 使 用 的 地 方 。 另 
一 方面 ， 从 读 取 者 对 写 入 过 程 结 束 的 循环 等 待 可 以 看 出 ， 写 入 者 的 实际 写 入 操作 占用 的 时 
间 不 应 太 长 。 


内 核 还 给 读 取 者 提供 了 一 个 read seqretry 函数 ， 与 read seqbegin 的 返回 值 一 起 使 用 ， 来 判 
定 本 次 的 读 取 操作 是 否 有 效 : 


<include/linux/seqlock.h> 


Tr Tre 


"o o- Fee ewe Bw 6 do -rT 


{ 


smp rmb(); 


return (sl->sequence != start); 


} 


函数 的 参数 start 是 读 取 者 在 读 取 操 作 之 前 调用 read_seqbegin 获得 的 初始 值 .如 果 本 次 读 取 
无 效 《〈 读 取 过 程 中 发 生 了 数据 更 新 )， 那 么 read seqretry 返回 1， 否 则 返回 0。 


下 面 分 别 给 出 写 入 者 和 读 取 者 利用 上 面 介绍 的 seglock 函数 进行 数据 读 / 写 协 调 的 例子 : 


/定义 一 个 全 局 的 seqlock 变量 demo seqlock 
DEFINE SEQLOCK(demo seglock); 


/对 于 写 入 者 的 代码 … 
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/实际 写 之 前 调用 write seglock 获取 自 旋 销 ， 同 时 更 新 sequence 的 值 
write seglock(&demo seglock); 

/获得 自 旋 锁 之 后 ， 调 用 do write 进行 实际 的 写 入 操作 

do write(); 

1/ 写 入 结束 ， 调 用 write sequnlock f$ 3& 4h 

write sequnlock(&demo seglock); 


/对 于 读 取 者 的 代码 … 
unsigned start; 
doi 
1/ 读 操作 前 先 得 到 sequence Hf start, | UL E ETE SS LACE S AE GIE E I 
/注意 读 操 作 无 须 获 得 锁 
start = read seqbegin(&demo seglock); 
/调用 do read 进行 实际 的 读 操作 
do_read(), 
}while(read_seqretry(&demo_seqlock, start);// 如 果 有 数据 更 新 ， 再 重新 读 取 


如 有 考虑 到 中 断 安 全 的 问题 ， 可 以 使 用 读 取 者 与 写 入 者 的 对 应 版 本 ; 


write seglock irq(lock) 
write seqlock irgqsave(lock, flags) 
write seglock bh(lock) 


write sequnlock irq(lock) 
write sequnlock irqrestore(lock, flags) 
write sequnlock bh(lock) 


read seqbegin irqsave(lock, flags) 
read seqretry irgrestore(lock, iv, flags) 


BU TEL ST VEL UE UE SSA EUER, rwlock， 对 比 这 里 的 seqlock， 会 发 现 两 者 非常 相似 。 
不 同 之 处 在 于 sealock 在 写 的 时 候 只 与 其 他 写 入 者 互 斥 ， 而 rwlock 在 写 的 时 候 与 读 取 者 和 
写 入 者 都 互 斥 。 因 此 当 要 保护 的 资源 很 小 很 简单 ， 会 很 频繁 被 访问 并 且 写 入 操作 很 少 发 生 
旦 必须 快速 时 ， 就 可 以 使 用 seqlock。 


4.7 下 CU 


RCU 的 全 称 是 Read-Copy-Update， 意 即 读 / 写 一 复制 一 更 新 , 在 Linux 提供 的 所 有 内 核 互 斥 
设施 当中 属于 一 种 免 锁 机 制 。 同 前 面 讨论 过 的 读 取 者 与 写 入 者 自 旋 锁 rwlock、 读 取 者 与 写 
入 者 信号 量 rwsem 以 及 顺序 锁 seqlock 一 样 ，RCU 的 适用 模型 也 是 读 取 者 与 写 入 者 共存 的 
系统 。 与 rwlock、rwsem 和 seglock 不 同 的 是 ，RCU 中 的 读 取 和 写 入 操作 无 须 考 虑 两 者 之 
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间 的 互 斥 问题 。 通 过 前 面 的 讨论 我 们 知道 ， 加 锁 与 解锁 都 要 涉及 内 存 操作 ， 同 时 还 伴 有 内 
存 屏 障 方法 的 引入 ， 这 些 都 使 得 锁 操 作 的 系统 开销 变 得 很 大 。 在 此 基础 上 ，Linux 内 核 加 
入 了 对 RCU 这 种 免 锁 的 互 斥 访问 机 制 的 支持 。 虽 然 在 设备 驱动 程序 中 使 用 RCU 的 机 会 很 
>, 但 是 通过 对 RCU 的 讨论 以 及 与 其 他 加 锁 机 制 的 对 比 , 可 以 更 深入 理解 Linux 内 核 为 设 
备 驱动 程序 提供 的 这 些 内核 设 施 各 自 的 利 整 。 | 


RCU 并 不 是 很 新 的 概念 ， 但 是 Linux 内 核 直 到 2.5 版 本 才 开 始 引 入 这 种 机 制 。 其 核心 思想 
HEREFTER, ÆA Linux AR PARR OR, WIRE. DB 
于 篇 幅 的 原因 ， 本 书 并 不 打算 在 源码 的 层面 上 详细 分 析 其 实现 过 程 。 


RCU 的 原理 简单 地 说 ， 是 将 读 取 者 和 写 入 者 要 访问 的 共享 数据 放 在 一 个 指针 p 中 ， 读 取 者 
Ext p 来 访问 其 中 的 数据 ， 而 写 入 者 则 通过 修改 p 来 更 新 数据 。 在 具体 的 实现 上 ， 读 取 者 
一 方 并 没有 太 多 的 事 要 做 ， 大 量 的 工作 集中 在 写 入 者 一 方 。 免 锁 的 实现 必定 要 通过 双方 恪 
守 一 定 的 规则 才 可 达成 。 


4.7.1 该 取 者 的 RCU 临界 区 


对 于 读 取 者 来 说 ， 如 果 要 访问 共享 数据 ， 所 要 做 的 工作 首先 是 调用 rcu read lock 和 
rcu read unlock 函数 构建 自己 所 谓 的 读 取 者 侧 的 临界 区 Cread-side critical section)， 然 后 在 
临界 区 中 获得 指 问 共享 数据 区 的 指针 ， 实 际 的 读 取 操作 就 是 对 该 指针 的 引用 。 这 里 对 于 读 
取 者 的 一 个 明确 的 规则 是 ， 对 指针 的 引用 必须 在 临界 区 中 完成 ， 离 开 临 界 区 之 后 不 应 该 出 
现任 何 形式 的 对 该 指针 的 引用 。 在 临界 区 中 ， 关 闭 内 核 的 可 抢占 性 意味 着 在 临界 区 中 不 会 
因为 中 断 的 发 生 导 致 进程 的 切换 ， 而 且 作 为 确定 的 规则 ， 临 界 区 中 的 代码 不 能 发 生 睡 眠 ， 
简 言 之 ， 临 界 区 中 的 代码 不 应 该 导致 任何 形式 的 进程 切换 。 


虽然 函数 的 名 称 中 含有 lock 字样 ， 但 是 rcu read lock 和 rcu read unlock 实际 要 做 的 工作 
仅仅 是 分 别 关 闭 和 打开 内 核 的 可 抢占 性 而 已 。 


4.7.2 与 入 者 的 RCU 操作 


RCU 操作 中 与 入 者 要 完成 的 工作 是 重新 分 配 一 个 被 保护 的 共享 数据 区 ,，(〈 视 具体 情况 决定 
iG) 将 老 数据 区 的 数据 复制 到 新 数据 区 ， 然 后 再 根据 需要 修改 新 数据 区 ， 最 后 用 新 数据 
区 指针 替换 掉 老 的 指针 ,替换 指针 的 操作 是 一 个 原子 操作 ,不 需要 与 读 取 者 进行 互 斥 操 作 。 
在 写 入 者 做 完 这 些 工 作 之 后 ， 后 续 的 所 有 RCU 的 读 取 操作 都 将 访问 到 这 个 新 的 共享 数据 
区 。 但 是 写 入 者 在 用 新 指针 替换 掉 老 指针 之 后 还 不 能 马上 释放 老 指 针 指 向 的 数据 区 所 占用 
的 内 存 空间 ， 这 是 因为 系统 中 还 可 能 存在 对 老 指 针 的 引用 。 这 主要 发 生 在 如 下 两 种 情况 : 

一 是 在 单 处 理 器 的 范围 看 , 假设 读 取 者 在 进入 RCU 临界 区 后 , 刚 获 得 共享 区 的 指针 之 后 发 
生 了 一 个 中 断 (因为 rcu read lock. 只 是 关闭 了 内 核 可 抢占 性 ， 并 没有 关闭 本 地 的 中 断 )， 

如 果 写 入 者 恰好 是 中 断 处 理 函 数 中 的 行为 , 那么 当中 断 返 回 后 , 被 中 断 进 程 在 RCU 临界 区 
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中 继续 执行 时 ， 将 会 继续 引用 老 指 针 ;， 万 一 个 可 能 是 在 多 处 理 郁 系统 ， 当 处 理 器 A 上 的 一 
个 读 取 者 进入 RCU 临界 区 并 获得 共享 数据 区 中 的 指针 后 ， 在 其 还 没 来 得 及 引用 该 指针 时 ， 
处 理 器 B 上 的 一 个 写 入 者 更 新 了 指向 共享 数据 区 的 指针 , 这 样 处 理 器 A 上 的 读 取 者 也 将 引 
用 到 老 指针 。 


因此 ， 写 入 者 在 奉 换 掉 共享 区 的 指针 后 ， 老 指针 所 指向 的 共享 数据 区 所 在 的 空间 还 不 能 马 
上 释放 。 与 入 痢 寄 要 和 内核 共同 协作 ， 在 确定 所 有 对 老 指 针 的 引用 都 结束 后 才 可 以 释放 老 
指针 指 问 的 内 存 空间 。 为 此 ， 写 入 者 在 用 新 指针 替换 掉 老 指针 之 后 需要 做 的 操作 是 ， 调 用 
call rcu 函数 癌 内 核 注 册 一 个 回调 函数 , 内 核 在 确定 所 有 对 老 指 针 的 引用 都 结束 时 会 调用 该 
回调 函数 ， 回 调 钞 数 的 功能 则 主要 是 释放 老 指针 指向 的 内 存 空间 。 下 面 是 call rcu 的 原型 : 


void call rcu(struct rcu head *head, void (*func)(struct rcu head *rcu)); 


RCU 的 写 入 者 负责 在 替换 掉 老 指针 之 后 调用 call reu 向 内 核 注册 一 回调 函数 ， 回 调 消 数 负 
责 实 现 释 放 老 指针 指向 的 内 存 空 间 ，call reu 中 的 参数 func 就 是 指向 该 回调 函数 的 指针 。 

函数 中 的 head 是 内 核 在 调用 func 时 传递 到 func 中 的 参数 。 实 际 的 使 用 中 ， 会 把 struct 
rcu head 内 垦 到 共享 数据 所 在 的 结构 体 中 ， 这 样 在 回调 函数 中 可 以 通过 传 进来 的 struct 
rcu head 指针 ， 使 用 container of 宏 获 得 指向 旧 的 共享 数据 区 的 指针 ， 然 后 调用 kfree 释放 
旧 的 数据 区 。 


关于 回调 函数 被 调用 的 时 机 ， 内 核 必 须 确保 没有 对 老 指 针 的 引用 时 才能 调用 回调 函数 释放 
老 指 针 。 内 核 确保 没有 读 取 者 对 老 指 针 的 引用 是 基于 以 下 规则 ， 所 有 可 能 的 对 共享 数据 区 
指针 的 不 一 致 引用 一 定 是 发 生 在 读 取 者 的 RCU 临界 区 (RCU 的 一 条 明确 的 规则 是 ， 离 开 
临界 区 之 后 不 应 该 出 现任 何 形式 的 对 该 指针 的 引用 )， 因 为 临界 区 由 reu read lock 和 
rcu read unlock 守 定 ， 所 以 就 单 处 理 器 范围 而 言 ， 在 临界 区 中 一 定 不 会 发 生 进程 的 切换 
(rcu read lock 将 会 关闭 内 核 的 可 抢占 性 , 这 也 是 读 取 者 在 其 临界 区 中 的 代码 一 定 不 会 出 现 
进程 切换 的 原因 )， 所 以 如 果 在 某 一 CPU 上 发 生 了 一 次 进程 切换 ， 那 么 所 有 对 老 指 针 的 引 
用 都 会 结束 ,之 后 的 读 取 者 再 进入 RCU 临界 区 都 将 看 到 新 指针 。 因 此 ， 内 核 确 定 没有 对 老 
指针 的 引用 的 条 件 是 ， 系统 中 所 有 处 理 器 上 都 至 少 发 生 了 一 次 进程 切换 。 


4.7.3 RCU 使 用 的 特点 


通过 前 面 对 RCU 读 取 者 与 写 入 者 操作 的 讨论 ， 可 以 看 到 RCU 实质 上 是 对 读 取 者 与 写 入 者 
自 旋 锁 rwlock 的 一 种 优化 : RCU 的 读 取 者 在 读 取 数 据 时 除了 关闭 内 核 可 抢占 性 外 , 与 普通 
数据 的 读 取 操 作 没 有 任何 区 别 ， 读 取 者 也 不 关心 当前 有 没有 写 入 者 正在 对 共享 数据 区 进行 
操作 ， 而 对 于 rwlock， 在 读 取 者 打算 工作 时 ， 必 须 确保 没有 写 入 者 正在 工作 ， 否 则 读 取 进 
程 将 进入 目 旋 状态 ， 所 以 RCU 可 以 让 多 个 读 取 者 与 写 入 者 同时 工作 。 相 对 于 读 取 者 ，RCU 
写 入 者 的 开销 比较 大 ， 它 需要 申请 新 的 内 存 空 间 ， 正 常 的 数据 更 新 操作 ， 向 内 核 注 册 回 调 
孙 数 ， 同 时 也 要 考虑 与 其 他 写 入 者 之 间 的 互 斥 问 题 ， 但 是 与 rwlock 不 一 样 的 是 ， 写 入 者 不 
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需要 考虑 与 读 取 者 的 互 矿 问题 。 


可 见 ，RCU 读 取 者 性 能 的 提升 是 在 增加 写 入 者 负担 的 前 提 下 完成 的 。 因 此 在 一 个 读 取 者 与 
写 入 者 共存 的 系统 中 ， 按 照 设计 者 的 说 法 ， 如 果 写 入 者 的 操作 比例 在 10% 以 上 ， 那 么 就 应 
该 考虑 其 他 的 互 斥 方法 ， 反 之 采用 RCU 的 实现 可 以 获得 更 高 的 性 能 。 另 外 ，RCU 的 设计 
思想 决定 了 必须 要 以 指针 的 方式 来 访问 被 保护 资源 。 


为 了 在 代码 中 使 用 RCU， 所 有 RCU 相关 的 操作 都 应 该 使 用 内 核 提供 的 RCU API 函数 ， 以 
确保 RCU 机 制 的 正确 使 用 ， 这 些 API 主要 集中 在 指针 和 链表 的 操作 。 


下 面 是 一 个 RCU 的 典型 用 法 范例 : 


/假设 struct shared data 是 一 个 在 读 取 者 和 写 入 者 之 间 共 享 的 受 保护 数据 
struct shared data{ 

int a; 

int b; 

struct rcu head rcu; 
h 


i 
1/ 读 取 者 侧 的 代码 。 读 取 者 调用 reu. read lock 和 rcu read unlock 构建 它 的 读 取 临界 区 ， 所 
W 有 对 指向 补 保 护 资源 指针 的 引用 都 应 该 只 在 临界 区 中 出 更， 而 且 临界 区 中 的 代码 不 能 睡眠 
i 
static void demo_reader(struct shared_data *ptr) 
{ 

struct shared data *p = NULL; 

rcu read lock(); 

1/ 调用 rcu. dereference 获得 ptr 的 指针 

p = reu_dereference(ptr); 

if{p) 

do something withp(p); 
rcu read unlock(); 


} 


i 

11 写 入 者 侧 的 代码 

i 

1/ 写 入 者 提供 的 回调 函数 ， 用 于 释放 老 指 针 

static void demo del oldptr(struct rcu head *rh) 

{ 
struct shared data * p = container of(rh, struct shared data, rcu); 
kfree(p); 

} 


static void demo writer(struct shared data *ptr) 
{ 
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struct shared data *new ptr = kmalloc(...); 


new ptr->a = 10; 
new ptr-2b = 20; 
VP EL REI 
rcu assign pointer(ptri»ew ptr); 
/调用 call rcu 让 内 核 在 确保 所 有 对 老 指针 ptr 的 引用 都 结束 后 回调 demo. del oldptr # 
IRE Te sr 
call rcu(ptr-^rcu, demo del oldptr); 
j 


上 面 的 例子 中 ， 写 入 者 在 调用 rcu assign pointer 更 新 了 老 指 针 之 后 ， 为 了 在 所 有 对 老 指 针 
的 引用 都 消失 后 释放 老 指 针 指向 的 空间 ， 使 用 call rcu. 向 系统 注册 了 一 个 回调 函数 
demo _del_oldptr， 系 统 将 在 确定 没有 对 老 指 针 的 引用 之 后 调用 该 函数 。 另 一 个 类 似 的 函数 
是 synchronize rcu， 这 个 函数 可 能 会 阻塞 ， 因 为 它 要 等 待 所 有 对 老 指针 的 引用 都 结束 时 才 
返回 ， 函 数 返 回 意味 着 系统 中 所 有 对 老 指 针 的 引用 都 消失 了 ， 此 时 再 释放 老 指针 的 空间 是 
安全 的 。 如 果 在 中 断 上 下 文中 执行 号 入 者 的 操作 ， 那 么 就 不 能 使 用 synchronize_rcu， 而 应 
该 使 用 call rcu. 


4.8 ”原子 变量 与 位 操作 


有 时 候 需 要 保护 的 共 玄 资源 可 能 只 是 个 简单 的 整 型 变量 ， 即 便 如 此 对 它 的 操作 依然 需要 保 
证 原子 性 ， 否 则 就 会 造成 不 可 预料 的 结果 ， 看 一 看 下 面 这 个 例子 : 


/一 个 在 Task A 5 B 之 间 共 享 的 全 局 变量 
int g_flag = 0; 


/Task A 
void taska_addflag() 
{ 
g flag ++; 
} 


//Task B 
void taskb addflag() 


{ 
g_flag ++; 
} 


系统 中 的 Task A fI BZA, g flag 会 是 多 少 ，2 吗 ? 答案 是 有 可 能 ! 这 是 一 个 典型 的 
对 变量 的 非 原 子 操作 可 能 导致 错误 结果 的 例子 。 原 因 在 于 即便 是 简单 如 g_flag++ 这 样 的 操 
作 ， 在 汇编 指令 级 ， 也 很 可 能 产生 如 下 代码 : 
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(7% g flag 的 值 从 内 存 中 读 到 EAX 寄存 器 
Li  "movl$g flag, ?oeax" 

I EAX S45? (Ee ] 

L2 "incl %eax" 

I EAX 寄存 器 中 的 值 写 回 到 p. flag 中 
L3 "movi %eax, $e flag" 


如 果 Task A 先 被 调度 运行 ， 在 其 执行 完 L1 尚未 执行 L2 Ef, Task B 开始 被 调度 执行 ,在 其 
执行 完整 个 代码 后 g_flag=1， 然 后 系统 又 调度 Task A 从 L2 处 继续 执行 ， 因 为 此 前 已 执行 
T Ll, $$$ EAX-0, 经 L2 后 ，EAX=1， 于 是 在 L3 执行 完 后 ，g flag-l. 


在 这 个 例子 中 当然 可 用 spinlock 来 保证 g_flag++ 操 作 的 原子 性 ， 但 是 加 锁 操 作 导 致 的 开销 
BOK, 用 在 这 里 总 是 有 点 浪费 。 此 时 可 以 考虑 利用 特定 架构 上 的 汇编 指令 来 完成 原子 操作 ， 
比如 上 面 的 g flag++， 可 以 用 类 似 “incl $g flag” 这 样 的 汇编 指令 实现 。 显 然 这 种 原子 操 
作 在 纯粹 的 C 语言 层面 难以 达成 ,必须 借助 汇编 语言 或 者 是 嵌入 到 C 中 的 汇编 指令 来 实现 。 


针对 这 种 特殊 的 原子 操作 ，Linux 源码 中 定义 了 一 个 类 型 为 atomic. t 的 原子 变量 。atomic t 
的 具体 定义 为 
<include/linux/types.h> 


ss ee mom om om o9 o4 83 3 3 ow ouo 9 ov ov com os a = ee = = = ==- x -:-r.LBET ——--555&t modu dm mb Uns EO mons doe MEO RE Cum m Rm ROUEN OM mU 


typedef struct { 
int counter; 
) atomic t; 


为 此 Linux 系统 中 定义 了 一 大 堆 以 “atomic ”打头 的 原子 操作 函数 ， 这 些 函 数 的 实现 都 依 
赖 于 特定 的 硬件 平台 。 为 了 给 读者 一 个 具体 的 感受 ， 下 面 挑 出 能 解决 上 述 g_flag++ 问 题 的 
atomic inc 国 数 来 分 析 它 在 x86 和 ARM 上 的 实现 。 


x86 上 的 atomic inc EK Zt: 


人 


static inline void atomic, inc(atomic t *v) 
{ 


asm volatile("lock incl %0" 
: "+m" (v->counter)); 


} 


x86 上 用 一 条 带 有 “lock” 前 组 的 inc 指令 来 保证 原子 变量 v 加 1 操作 的 原子 性 ,“lock” 前 
Site x86 上 的 作用 是 在 执行 inc 指令 时 独占 系统 总 线 ， 这 样 即便 系统 总 线 上 还 有 其 他 的 
master, TE inc 执行 期 间 也 无 法 修改 v->counter 的 值 。 

ARM 上 的 atomic inc 函数 : 


<arch/arm/include/asm/atomic.h> 
#define atomic_inc(v) atomic add(l, v) 
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static inline void atomic add(int i, atomic t *v) 
{ 

unsigned long tmp; 

int result; 


. asm volatile ("(@ atomic_add\n" 
"ID: Idrex %0, [203] Wn" 


" — add 90, 990, %4\n" 

" — strex 991, 960, [263 |n" 
"  teq %1, #0\n" 

"  bne 1b" 


: "rr" (result), "Ar" (tmp), "+o" (v-=>counter} 
: "r" (&v->counter), Te (i) 
: "ec"h 


} 
ARM 使 用 ldrex 和 strex 来 保证 add 指令 的 原子 性 ,这 在 前 面 分 析 spiniock 的 代码 时 已 经 讲 过 。 
这 样 ， 绸 回 到 刚 开 始 的 g_flag++ 的 例子 ， 使 用 原子 变量 就 可 以 轻松 解决 问题 : 


/一 个 在 Task A 与 B 之 间 共 享 的 原子 变量 ， 并 用 ATOMIC INIT 将 其 中 的 counter 初始 化 为 0 
atomic t g flag = ATOMIC INIT(0); 


//Task A 
void taska addflag() 
{ 
atomic inc(&g flag); 
} 


//Task B 
void taskb addflag() 


{ 
atomic inc(&g flag); 
j 


这 样 Task A 和 B 执行 之 后 ，g flag.counter 的 结果 一 定 是 2。 


前 面 已 经 看 到 了 atomic t 的 定义 ， 它 是 个 struct 类 型 ， 所 以 在 需要 整 型 变量 的 地 方 不 能 直 
H atomic t 变量 ， 否 则 会 产生 编译 错误 。 另 外 在 实际 使 用 时 应 当 注 意 ，atomic t 型 变量 
只 能 保证 自身 操作 的 原子 性 ， 对 一 个 由 多 个 整 型 变量 组 成 的 共享 数据 ， 即 便 把 这 些 变量 全 
部 声明 为 原子 型 ， 对 它们 的 使 用 也 都 是 用 atomic 类 的 函数 ， 也 不 能 保证 对 该 共享 数据 操作 
的 原子 性 ， 此 时 需要 用 到 前 面 介 绍 的 其 他 互 斥 方 法 。 


与 单个 原子 变量 相对 的 是 位 操作 的 原子 性 ， 其 实现 原理 和 原子 变量 完全 一 样 ， 依 赖 于 特定 
的 处 理 器 指令 实现 对 变量 上 的 位 进行 原子 性 的 操作 和 测试 。 
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4.9 ”等 待 队 列 


等 待 队列 并 不 是 一 种 互 斥 机 制 ， 之 所 以 把 等 待 队 列 放 在 这 里 作为 独立 的 一 节 ， 是 因为 本 书 
在 讨论 接 下 来 的 一 些 内 核 设 施 的 实现 机 制 时 ， 会 经 常用 到 等 待 队列 的 概念 。 等 待 队列 是 内 
核定 义 的 一 种 数据 结构 , 用 来 实现 其 他 的 内 核 机 制 , 比如 下 面 要 提 到 的 完成 接口 completion 
以 及 工作 队列 等 。 


等 待 队列 本 质 上 是 一 双 回 链表 ， 由 等 待 队列 头 和 队列 节点 构成 ， 当 运行 的 进程 要 获得 某 一 
资源 而 暂 不 可 得 时 ， 进 程 有 时候 需要 等 待 ， 此 时 它 可 以 进入 睡眠 状态 ， 内 核 为 此 生成 一 个 
新 的 等 等 队列 节点 将 睡眠 的 进程 挂 载 到 等 待 队 列 中 。 


4.9.1 等 待 队 列 头 wait queue head t 
内 核 为 等 待 队 列 头 节点 定义 的 数据 结构 为 


<include/linux/wait.h> 


struct. wait queue head{ i itsts—<‘“—sSsSS 
spinlock t lock; 
struct list head task list; 


h 
typedef struct wait queue head wait queue head t; 


其 中 : 
spinlock_t lock 
等 待 队列 的 自 旋 锁 ， 用 做 等 待 队列 被 并 发 访问 时 的 互 斥 机 制 。 
struct list head task list 
双向 链表 结构 体 ， 用 来 将 等 待 队列 构成 链表 。 
如 果 程 序 需 要 定义 一 个 等 待 队列 ,有 两 种 方法 。 一 是 通过 DECLARE WAIT QUEUE HEAD 
宏 来 完成 等 待 队列 头 对 象 的 静态 定义 与 初始 化 ， 


<include/linux/wait.h> 
#idefine WAIT QUEUE HEAD INITIALIZER(name) ( | 
-lock =  SPIN LOCK UNLOCKED(name.lock), A 


task hist = { &(name).task list, &(name).task list ) } 


#define DECLARE WAIT QUEUE HEAD(name) \ 
wait queue head tname= — WAIT QUEUE HEAD INITIALIZER(name) 
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二 是 通过 init waitqueue head 宏 在 程序 运行 期 间 初 始 化 一 个 头 节 点 对 象 : 


<include/linux/wait.h> 


#define init waitqueue head(q) \ 
do { A 
static struct lock class key key; \ 
. init waitqueue head((q), & — key); \ 
) while (0) 
<kernel/wait.c> 


pi a a a E a a a r a a a r a A e a E E REE momo oL Lc 


i 
spin lock init(&q-»lock); 
lockdep set class(&q--lock, key); 
INIT LIST HEAD(&gq--^task list); 
j 


4.9.2 ”等待 队列 的 节点 
等 待 队 列 节点 的 数据 结构 为 


<include/linuwwait.h> 


i 


typedef struct — wait queue wait queue t; 
typedef int (*wait queue func t)(wait queue t *wait, unsigned mode, int flags, void *key); 
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struct — wait queue { 
unsigned int flags; 
void *private; 
wait queue func t func; 
struct list head task list; 
h 


Am: 
unsigned int flags 


唤醒 等 待 队列 上 的 进程 时 ， 该 标志 会 影响 唤醒 操作 的 行为 模式 。 内 核 为 此 定义 了 
WQ_FLAG_EXCLUSIVE， 如 果 一 个 等 待 节点 设置 了 该 标志 位 ， 表 明 睡眠 在 其 上 的 进程 在 
被 唤醒 时 具有 排他 性 ， 关 于 这 方面 的 细节 将 留 到 等 待 队列 实际 应 用 的 讨论 中 。 


void *private 
等 等 队列 的 私有 数据 ,实际 使 用 中 用 来 指向 睡眠 在 该 节点 上 的 进程 的 task_struct 结构 。 


wait queue func t func 
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当 读 节点 上 的 睡眠 进程 帝 要 被 唤醒 时 执行 的 唤醒 函数 。 
struct list_head task_list 
用 来 将 各 独立 的 等 待 队列 节点 链接 起 来 形成 链表 。 
程序 可 以 通过 DECLARE WAITQUEUE 来 定义 并 初始 化 一 个 等 待 队列 的 节点 ; 


«include/linux/wait.h 


Hdefine | WBAITQUEUE INITIALIZER(name, tsk) { \ 
.private = tsk, \ 
.func = default wake function, A 


task list = ( NULL, NULL ) } 


#define DECLARE WAITQUEUE(name, tsk) A 
wait queue tname- — WBAITQUEUE INITIALIZER(name, tsk) 


如 果 要 在 程序 运行 期 初始 化 一 个 等 待 队列 节点 对 象 ， 可 以 使 用 init waitqueue entry 函数 ; 
oe ee 
static inline void init_waitqueue_entry(wait_queue_t*q, struct task struct*p) ——————— 
i 
q->flags = 0; 
q->private = p; 
q->func = default wake function; 


4.9.3 ”等待 队列 的 应 用 


等 待 队列 遂 用 的 模式 便 是 实现 进程 的 睡眠 等 待 ， 当 某 一 进程 在 运行 过 程 中 需要 的 资源 暂时 
无 法 获得 时 ， 进 程 将 进入 睡眠 状态 以 让 出 处 理 器 资源 给 其 他 进程 。 进 程 进 入 睡眠 状态 ， 意 


味 着 进程 将 从 调度 器 的 运行 队列 中 移 除 ， 此 时 进程 将 被 挂 载 到 某 一 等 待 队列 的 节点 中 。 为 
了 实现 进程 的 睡眠 机 制 ， 系 统 会 产生 一 个 新 的 等 待 队列 节点 ， 然 后 将 进程 的 task. struct 对 
象 放 到 等 待 队 列 节 点 对 象 的 private 成 员 中 。 


内 核 中 对 等 待 队列 的 核心 操作 是 等 待 (wait) 与 唤醒 (wake up)， 这 里 打算 把 相关 内 容 的 讨 
论 推迟 到 具体 使 用 到 这 些 操作 的 时 候 ， 比 如 下 面 即将 介绍 的 完成 接口 。 


4.10 ”完成 接口 completion 


本 章 的 最 后 来 讨论 一 个 被 称 为 “完成 接口 completion ”的 同步 机 制 ， 该 机 制 被 用 来 在 多 个 
执行 路 径 间 作 同 步 使 用 ， 也 即 协 调 多 个 执行 路 径 的 执行 顺序 。 完 成 接口 在 内 核 中 用 一 个 数 
据 结 构 struct completion 表示 ， 定 义 如 下 : 
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<include/linux/completion.h> 


i 


struct completion { 


unsigned int done: 
wait queue head t wait; 


H 


EH, done 表示 当前 completion 的 状态 。wait 是 一 等 待 队 列 ， 用 来 管理 当前 等 待 在 该 
completion 上 的 所 有 进程 。 


如 果 要 静态 定义 一 个 struct completion 变量 并 初始 化 , 可 以 使 用 DECLARE COMPLETION 宏 ， 


<include/linux/completion.h> 


和 


#define DECLARE _COMPLETION(work) \ 
struct completion work = COMPLETION_INITIALIZER(work) 


E 4í o - UPON ROCE Che Le oROGED eee ee ee ee ee ORG 


如 果 要 重新 初始 化 一 个 已 使 用 过 的 struct completion 变量 , 可 以 使 用 INIT. COMPLETION %: 


<include/linux/completion.h> 


和 


#define INIT COMPLETION(x)  ((x).done = 0) 


有 


如 果 要 动态 初始 化 一 个 struct completion 变量 ， 则 应 该 调用 init completion 函数 : 


<include/linux/completion. h> 


人 


static inline void init completion(struct completion *x) 


{ 


ee es ee eae ee 


x->done = 0; 
init_Waitqueue_head(&x->wait); 


} 


完成 接口 completion 对 执行 路 径 间 的 同步 可 以 通过 等 待 者 与 完成 者 模型 来 表述 。 对 于 等 待 
者 的 行为 ， 内 核定 义 的 一 个 典型 的 函数 是 wait_for_ completion: 


f .*kernel/sched. c> 


三 


void — sched wait for completion(struct completion *x) 
i 

wait for common(x, MAX SCHEDULE TIMEOUT, TASK UNINTERRUPTIBLE); 
Í 


wait for completion 内 调用 wait for common 来 使 当前 进程 以 TASK_UNINTERRUPTIBLE 
睡眠 在 completion x 上 的 wait 队列 中 。wait_for_common 内 部 调用 了 do wait for common 
来 做 这 件 事 : 


<kernel/sched.c> 


C eT ee 


static inline long  . sched 


和 


do wait for common(struct completion *x, long timeout, int state) 
{ 
if (fx->done) ( 
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DECLARE WAITQUEUE(wait, current); 


. add wait queue tail exclusive(&x-^ wait, &wait); 
do | 
if (signal pending state(state, current)) { 
timeout = -ERESTARTSYS; 
break; 
} 
. Set current state(state); 
spin unlock irq(&x-^wait.lock); 
timeout — schedule timeout(timeout); 
spin lock irq(&x-»wait.lock); 
) while (!x->done && timeout); 
__remove_wait_queue(&x->wait, &wait); 
if ('x->done) 
return timeout: 
f 


x->done--; 
return timeout ?: 1; 
] 


等 待 者 首先 检查 completion 中 的 done 成 员 ， 它 表示 当前 在 completion 上 的 完成 者 数量 ， 如 
果 没 有 完成 者 ， 那 么 等 待 者 将 进入 睡眠 队列 进行 等 待 ， 这 种 睡眠 是 不 可 中 断 的 。 
DECLARE WAITQUEUE 定义 并 初始 化 了 一 个 等 待 节点 wait， 代 表 当 前 进程 的 current 变量 
将 会 记录 到 wait 的 private 变量 ，wait 中 的 func 函数 指针 指向 default wake function, 34 wait 
上 的 进程 被 唤醒 时 将 调用 该 函数 。 进 程 需要 睡眠 时 ， 通 过 add_ wait queue tail exclusive 把 
wait 节点 加 入 到 completion 管理 的 等 待 队列 的 尾部 ，wait>flags |= WQ FLAG EXCLUSIVE, 
等 待 节 点 wait 中 的 这 个 flags 标记 将 在 完成 者 的 唤醒 操作 中 使 用 到 。 


才干 时 间 之 后 ， 进 程 因 某 种 原因 被 唤醒 ， 表 现 为 从 schedule timeout 函数 返回 ， 它 将 检查 
done 成 员 和 timeout 变量 以 决定 后 续 的 行为 。timeout>0 表示 进程 还 没有 超时 ，x->done=0 
表示 completion 上 还 没有 完成 者 ， 此 时 当前 进程 如 果 没 有 信和 号 需要 处 理 ， 将 继续 睡眠 。 


如 果 进 程 睡眠 超时 ,将 返回 timeout 的 值 . 如 果 没 有 超时 且 有 完成 者 在 completion 上 出 现 ( 这 
是 绝 大 多 数 会 出 现 的 情形 )， 那 么 进程 将 离开 睡眠 队列 ， 在 将 完成 者 数量 减 1 之 后 ， 等 待 者 
结束 等 待 状态 返回 。 


如 果 考 虑 到 进程 进入 睡眠 队列 的 状态 及 睡眠 超时 时 间 的 设 定 ， 内 核 提供 了 
wait for completion 的 另外 一 些 版 本 供 使 用 : 


int wait_for_completion_interruptible(struct completion *x); 


可 中 断 的 等 待 状态 。 


int wait for completion killable(struct completion *x); 
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可 杀 死 的 等 待 状态 。 等 该 的 进程 可 以 被 一 个 kill signal 唤醒 并 中 止 等 待 状态 。 


unsigned long wait_for_completion_timeout(struct completion *x,unsigned long timeout); 


AAT PRISE EAS. (HE timeout 指定 的 时 间 到 期 之 后 ， 进 程 将 中 止 等 待 状态 。 


unsigned long wait_for_completion interruptible timeout( 


struct completion *x, unsigned long timeout); 


可 中 断 的 等 待 状态 ， 但 在 timeout 指定 的 时 间 到 期 之 后 ， 进 程 将 中 止 等 待 状态 。 


unsigned long wait for completion killable timeout( 
struct completion *x, unsigned long timeout); 


BREN SRA, [BTE timeout 指定 的 时 间 到 期 之 后 ， 进 程 将 中 止 等 待 状态 。 
对 于 完成 者 的 行为 , 内 核 为 其 定义 的 函数 是 complete 和 complete all, 前 者 只 唤醒 一 个 等 待 
者 ， 后 者 将 唤醒 所 有 的 等 待 者 。 


<kernel/sched.c> 


ee Se ae ee peu 


void complete(struct completion *x) 


站 


i 
unsigned long flags; 
spin_lock_irqsave(&x->wait.lock, flags); 
x->donet+; 
__wake_up_common(&x->wait, TASK NORMAL, 1, 0, NULL); 
spin_unlock_irqrestore(&x->wait.lock, flags); 
I 


PR SOS 56 AR BS 1, 然后 调用 ”wake up common 函数 执行 唤醒 等 待 者 的 操作 , HE 
意 这 里 的 第 三 和 第 四 个 参数 ， 分 别 表 示 排 他 性 唤醒 的 个 数 和 唤醒 标志 。 


<kernel/sched.c> 


mom Pee ew =- 


ee ee T Ro Ga; c CUR URS RO TRÉSOR onn E 


static void — wake up common(wait queue head t *q, unsigned int mode, 
int nr exclusive, int wake flags, void *key) 
{ 


wait queue t *curr, *next; 


list for each entry safe(curr, next, &q-»task list, task list) { 
unsigned flags = curr->flags; 


if (curr->func(curr, mode, wake flags, key) && 
(flags & WQ FLAG EXCLUSIVE) && !--nr exclusive) 
break; 
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函数 遍历 当前 completion 所 管理 的 等 待 队列 的 每 一 个 节点 ,此 时 nr_exclusive=1, flags 4 
有 WQ FLAG EXCLUSIVE 标志 ， 意 味 痢 本 次 唤醒 只 会 唤醒 一 个 等 待 者 。func 指向 
default wake function， 用 来 做 实际 的 唤醒 工作 。 


相对 于 complete 一 次 只 唤醒 一 个 等 待 者 , complete all 用 来 唤醒 completion 等 待 队列 上 的 所 


<kernel/sched.c> 


oe ee ee -TT tT MM om om omm ee BB Be Ee here ee ee rr mL eee dut. 


void complete_all(struct completion *x) 


{ 
unsigned long flags; 


spin_lock_irqsave(&x->wait.lock, flags); 
x->done += UTNT MAX/2; 
__wake_up_common(&x->wait, TASK NORMAL, 0, 0, NULL); 
spin_unlock_irgrestore(&x->wait.lock, flags); 
} 


注意 complete all 在 这 里 假设 完成 者 的 最 大 数量 是 (~0U)/2， 这 是 个 很 大 的 值 ， 现 实 系统 中 
很 少 有 等 待 者 进程 的 数量 会 达到 该 值 ， 因 此 在 complete_all 之 后 completion 中 的 done 值 将 
失去 其 本 来 的 意义 ， 如 果 后 面 要 继续 该 completion， 应 该 调用 前 面 提 过 的 
INIT COMPLETION 宏 。 


4.11 本章 小 结 


本 章 详 细 介 绍 了 Linux 内 核 提 供给 驱动 程序 使 用 的 各 种 互 扩 和 同步 设施 ， 其 中 最 常用 的 是 
自 旋 锁 spinlock 和 互 斥 锁 mutex. 


目 旋 锁 不 会 进入 睡眠 ， 因 而 最 适合 在 不 允许 睡眠 的 上 下 文 环境 中 执行 ， 比 如 中 断 处 理 函数 。 
因为 一 个 进程 试图 获得 锁 而 不 可 得 时 ， 实 际 上 处 于 忙 等 待 状态 ， 因 此 要 求 获 得 锁 的 进程 在 
尽 可 能 短 的 时 间 内 完成 对 共享 资源 的 访问 ， 然 后 释放 锁 。 自 旋 锁 根据 不 同 的 应 用 场景 有 不 
同 的 变 体 ， 读 者 应 该 深入 理解 这 些 自 旋 锁 的 幕后 实现 机 制 ， 以 便 在 实际 使 用 时 能 够 选 定 正 
确 的 目 旋 锁 来 实现 对 共享 资源 的 保护 。 


而 互 斤 锁 的 实现 来 源 于 信号 量 ， 所 以 如 果 一 个 进程 在 进入 临界 区 前 试图 调用 互 斥 锁 时 ， 有 
可 能 会 进入 休眠 状态 ， 所 以 在 中 断 上 下 文中 严格 禁止 使 用 互 斥 锁 和 信和 号 量 。 


虽然 目 旋 锁 是 一 种 基于 忙 等 待 的 互 斥 机 制 ， 但 是 现实 中 被 自 旋 锁 保 护 的 临界 区 代码 往往 可 
以 很 快 执 行 完 毕 释 放 掉 锁 ， 这 种 情况 下 如 果 用 互 斥 锁 的 话 ， 可 能 引起 的 进程 切换 的 开销 往 
往 要 比 忙 等 待 大 得 多 ， 因 此 不 能 以 为 进程 睡眠 一 定 会 比 忙 等 待 更 有 利于 系统 性 能 。 


*O 
中 断 处 理 


外 部 设备 与 中 央 处 理 器 交互 一 般 有 两 种 手段 ， 轮 询 和 中 断 。 对 于 轮 询 ， 要 求 处 理 器 不 停 地 
得 艾 外 设 的 状态 ， 在 此 期 间 处 理 器 不 能 做 别 的 事情 。 而 中 断 不 要 求 处 理 器 不 停 地 查询 自己 
的 状态 ， 而 是 在 上 且 己 的 状态 满足 处 理 器 的 要 求 时 主动 发 送 一 个 便 件 信号 给 处 理 器 ， 后 者 在 
接收 到 这 一 信号 时 ， 会 挂 起 当前 正在 热 行 的 任务 转 而 去 处 理 外 设 的 中 断 信和 号 。 


现代 设备 绝 大 多 数 采 用 中 断 的 方式 与 处 理 器 进行 沟通 ， 因 此 设备 驱动 程序 必须 能 够 支持 设 
备 的 中 断 特 性 。 处 理 器 在 中 断 到 达 时 会 根据 不 同 的 中 断 号 找到 对 应 的 处 理 函 数 对 该 信号 进 
行 处 理 ， 这 些 处 理 函 数 称 为 中 断 处 理 例 程 [SR (Interrupt Service Routine) 4， 设备 驱动 程序 
负责 为 管理 的 设备 提供 中 断 处 理 例 程 并 向 系统 注册 。 从 设备 发 出 中 断 信 号 ， 到 处 理 器 最 终 
调用 中 断 处 理 例 程 进行 处 理 ， 期 间 会 经 过 很 多 步骤 ， 这 个 过 程 构 成 了 中 断 处 理 框 架 。 不 同 
的 操作 系统 对 中 断 处 理 框架 的 设计 不 尽 相同 ， 但 是 要 达到 的 目的 是 一 样 的 ， 那 就 是 最 终 调 
用 设备 的 中 断 处 理 例 程 。 


本 章 将 先 描述 Linux 系统 下 的 中 断 处 理 框架 设计 ， 然 后 在 此 基础 上 讨论 设备 驱动 程序 如 何 
利用 内 核 提 供 的 接口 函数 癌 系 统 挂 载 中 断 处 理 例 程 ， 最 后 讨论 中 断 上 下 文 的 相关 内 容 ， 包 
括 软 中 断 等 。 


5.1 中 上 断 的 硬件 框架 


处 理 器 一 般 只 有 两 根 左 右 的 中 断 引 脚 ， 和 而 管理 的 外 设 却 很 多 。 为 了 解决 这 个 问题 ， 现 代 设 
备 的 中 断 信号 线 并 不 是 与 处 理 器 直接 相连 ， 而 是 与 一 个 称 为 中 断 控制 器 的 设备 相连 接 ， 后 
者 才 跟 处 理 器 的 中 断 引 脚 直 接连 接 。 中 断 控制 器 一 般 可 以 通过 处 理 器 进行 编程 配置 ， 所 以 
常 称 为 可 编程 中 断 控 制 器 PIC (Programmable Interrupt Controller)。 图 5-1 是 一 个 典型 的 中 
扬 人 硬件 连接 的 系统 框架 周 ; 


1 XT ISR 的 定义 ， 有 的 书 可 能 将 处 理 器 接收 到 中 断 信 号 后 的 跳 转 地 址 指向 的 “函数 ” 称 为 ISR， 本 书 将 这 部 分 称 为 “ 通 
用 中 断 处 理 羡 数 ”"， 而 将 驱动 程序 提供 的 中 断 处 理 函数 称 为 1SR。 总 之 ， 这 只 是 个 称谓 问题 。 
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5-] 中断 连 接 框图 


图 中 ，PIC 的 输出 中 断 信 号 线 连接 到 处 理 器 的 INT 引 脚 上 ， 这 是 处 理 器 专门 用 来 接收 中 断 
信号 的 pin 脚 。 外 部 设备 的 中 断 线 连接 到 PIC 的 pin 引 脚 上 ， 这 是 PIC 用 来 接收 外 设 中 断 
的 pin 脚 ， 比 如 外 部 设备 1 的 中 断 线 通过 PO 连 到 PIC 上 。 在 实际 的 硬件 平台 上 ，PIC 有 的 
在 CPU 外 部 ， 比 如 x86 平台 上 的 8259 控制 器 :有 的 被 封装 到 了 CPU 的 内 部 ， 这 广泛 见于 
嵌入 式 领 域 ， 一 颗 SoC 芯片 内 部 集成 了 处 理 器 和 各 种 外 部 设备 的 控制 器 ， 其 中 包括 PIC. 
中 断 方面 的 内 容 常 常 涉及 硬件 平台 的 差别 ， 但 是 这 里 不 会 纠结 于 某 个 具体 的 硬件 设计 ， 而 
是 希望 相关 的 内 容 可 以 很 快 被 读者 吸纳 到 自己 手边 的 平台 上 。 为 了 让 讨论 更 加 方便 ， 下 面 
把 图 中 中 断 的 连接 逻辑 作为 通用 的 硬件 平台 ， 


5.2 PIC 与 软件 中 断 号 


实际 使 用 中 ， 在 处 理 器 能 处 理 外 部 设备 的 中 断 前 ， 常 常 需要 对 PIC 进行 配置 ， 配 置 工 作 常 
常 作 为 操作 系统 初始 化 任务 的 一 部 分 。 当 然 中 断 处 理 框 架 也 需要 提供 适当 的 PIC 配置 接口 
函数 供 设备 驱动 程序 调用 ， 因 为 设备 驱动 所 管理 的 设备 也 许 并 不 是 一 开始 就 连接 到 PIC 的 
某 一 中 断 引 脚 上 的 。 如 果 在 系统 运行 起 来 之 后 ， 某 一 外 设 才 被 用 户 接 入 系统 ， 那 么 它 的 驱 
动 程序 应 该 负责 配置 PIC 的 对 应 引 脚 ， 使 该 外 设 能 正常 中 断 处 理 器 。 


对 PIC 的 配置 工作 主要 包括 : 

(1) 设 定 外 部 设备 中 断 触发 电信 和 号 的 类 型 ， 和 常见 的 触发 类 型 有 水 平 触发 和 边沿 触发 。 

C2) 将 外 设 的 中 断 引 脚 编号 映射 到 人 处理 器 可 见 的 软件 中 断 号 irge 

(3) 屏蔽 掉 某 些 外 部 设备 的 中 断 触 发 2。 

为 了 让 处 理 器 可 以 配置 自己 ，PIC 常 弟 种 要 提供 一 系列 的 控制 寄存 器 。 这 些 控制 寄存 器 可 


2 屏 殴 一 个 中 断 有 两 层 含义 : 一 是 指 在 处 理 器 内 部 的 中 断 屏 项 , 这 种 情况 下 处 理 器 不 会 响应 外 部 中 断 信号 : 二 是 指 在 PIC 
ERM RR. WN RRA RS PIC 中 断 引 脚 信和 号 。 
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以 完成 上 述 所 有 配置 工作 ， 并 且 配置 粒度 可 以 细 分 到 PIC 的 每 一 个 中 断 输 入 引 脚 P。 此 处 
一 个 需要 明确 定义 的 概念 是 软件 中 断 号 irq, 它 是 发 生 设备 中 断 时 处 理 器 从 PIC 中 读 到 的 中 
断 号 码 , 在 操作 系统 建立 的 中 断 处 理 框架 内 , 会 使 用 这 个 irq 号 来 标识 一 个 外 设 的 中 断 并 调 
用 对 应 的 中 断 处 理 例 程 。 作 为 描述 的 示例 ， 考 虑 图 5-1 中 外 部 设备 0 触发 的 一 个 中 断 电 信 
号 被 处 理 的 大 体 流程 。 PIC 将 首先 接收 到 该 信号 ,如 果 它 没有 锌 屏蔽 , 那么 PIC 应 该 在 INT 
引 脚 上 产生 一 个 中 断 信 号 告诉 处 理 器 。 后 者 在 接收 到 该 信号 后 会 从 PIC 那里 得 到 一 个 特定 
的 标识 号 码 ， 该 号 码 告 诉 中 断 处 理 框架 ， 是 设备 0 发 生 了 中 断 。 于 是 中 断 处 理 框 染 会 调用 
设备 0 的 中 断 处 理 例 程 ， 此 处 的 这 个 特定 的 标识 设备 0 的 中 断 号 码 就 称 为 软件 中 断 号 irq 
BA PTS irq。 


此 处 还 有 一 个 概念 需要 提 一 下 ， 那 就 是 中 断 问 量 表 (vector table)。 这 其 实 是 处 理 器 内 部 的 
一 个 概念 ， 因 为 处 理 器 除了 会 被 外 部 设备 中 断 ， 其 内 部 也 可 能 会 产生 异常 等 事件 。 当 这 些 
事 发 生 时 ，CPU 必须 暂停 当前 的 工作 ， 转 而 去 处 理 中 断 或 者 异常 ， 因 此 处 理 器 需要 知道 到 
哪里 去 获得 这 些 中 断 或 异常 的 处 理 函 数 的 目标 地 址 。 中 断 问 量 表 就 用 来 解决 这 个 问题 ， 其 
每 一 项 都 是 一 个 中 断 或 异常 处 理 函 数 的 入 口 地 址 。 外 部 设备 的 中 断 常常 对 应 向 量 表 中 的 某 
一 项 ， 这 是 个 通用 的 外 部 中 断 椒 理沙 数 的 入 口 ， 因 此 在 进入 通用 的 中 断 处 理 函 数 之 后 ， 系 
统 必 须要 知 站 正在 处 理 的 中 断 是 哪 一 个 设备 产生 的 ,而 这 正 是 由 前 面 提 到 的 软件 中 断 号 irq 
决定 的 。 中 断 癌 量 表 中 的 内 容 由 操作 系统 在 初始 化 阶段 来 填写 ， 对 于 外 部 中 断 ， 操 作 系 统 
负责 实现 一 个 通用 的 外 部 中 断 处 理 函 数 ， 然 后 把 这 个 函数 的 人口 地 址 放 到 中 断 向 量 表 中 的 
对 应 位 置 。 


5.3 ”通用 的 中 断 处 理 顷 数 


当 有 外 部 中 断 发 生 时 ， 预 先 设计 好 的 处 理 器 硬 忻 逻辑 往往 会 做 一 些 特定 的 动作 ， 为 从 软件 
层面 发 起 的 中 断 处 理 做 准备 工作 。 不 同 的 处 理 器 有 不 同 的 逻辑 设计 ， 但 这 些 动作 常常 包括 
把 当前 任务 的 上 下 文 寄 存 器 保存 在 一 个 特定 的 中 断 栈 中 ， 屏 蔽 掉 处 理 器 响应 外 部 中 断 的 能 
力 等 。 在 这 些 动作 的 结束 部 分 ， 硬 件 逻 辑 根据 中 断 问 量 表 中 的 外 部 中 断 对 应 的 入 口 地 址 ， 
开始 调用 由 操作 系统 提供 的 通用 中 断 处 理 函 数 。 


不 同 的 架构 平台 上 通用 中 断 处 理 函 数 的 实现 也 不 尽 相 同 ， 但 在 开始 部 分 ， 都 会 设法 从 PIC 
中 得 到 导致 本 次 中 断 发 生 的 外 部 设备 对 应 的 软件 中 断 号 irq, 这 部 分 代码 通常 都 是 用 汇编 语 
言 实 现 ， 在 Linux 源码 树 中 散落 在 各 个 特定 架构 对 应 的 目录 中 。 然 后 通用 处 理 函 数 开 始 调 
用 一 个 C 函数 ， 大 部 分 平台 上 这 个 C 函数 的 名 字 是 do_IRQ, 但 也 有 例外 ， 比 如 ARM 平台 
上 是 asm_do_IRQ， 本 书 采 用 do IRQ 来 指 代 该 C 函数 的 名 称 。 


中 断 处 理 的 绝 大 部 分 流程 都 浓缩 在 了 这 个 C 函数 当中 ， 当 这 个 函数 返回 时 ， 通 用 中 断 处 理 
国 数 余下 部 分 的 代码 将 完成 中 断 现场 恢复 的 工作 ， 这 也 标志 着 整个 中 断 处 理 流 程 的 结束 : 
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被 中 断 的 任务 开始 继续 执行 ， 仿 佛 中 断根 本 没有 发 生 过 一 样 3。 


通常 ， 处 理 器 在 接收 到 外 部 的 中 断 信号 时 ,硬件 逻辑 会 自动 屏蔽 处 理 器 响应 外 部 中 断 的 能 
力 ， 因 此 如 果 操 作 系 统 实现 的 中 断 人 处理 框架 不 主动 打开 中 断 的话 ， 整 个 中 断 处 理 的 流程 是 
在 中 断 关 闭 的 情况 下 进行 的 。 因 为 各 个 设备 的 中 断 处 理 函 数 一 般 是 由 驱动 程序 实现 的 ， 内 
核 无 法 保证 这 些 中 断 处 理 函 数 执行 时 间 的 长 短 ， 如 果 某 一 中 断 处 理 函 数 执行 时 间 过 长 ， 则 
将 会 导致 系统 可 能 很 长 时 间 无 法 接收 中 断 ， 这 可 能 会 使 某 些 外 部 设备 丢失 数据 或 者 操作 系 
统 响应 时 间 变 长 等 。 为 了 解决 这 一 问题 ，Linux 内 核 为 驱动 程序 提供 的 中 断 处 理 机 制 分 成 
了 两 个 部 分 ， HARDIRQ 和 SOFTIRQ。， 前 者 是 在 中 断 关 闭 的 情况 下 执行 4， 用 来 完成 中 断 
发 生 后 最 关键 的 操作 ， 它 的 执行 时 间 应 该 尽 可 能 短 。 后 者 是 在 中 断 开启 的 情况 下 进行 ， 此 
时 外 部 设备 仍 可 以 继续 中 断 处 理 器 ， 驱 动 程序 因此 可 以 将 一 些 比较 耗 时 的 工作 延迟 到 这 部 
分 执行 。 在 do IRQ ARH, Xf irq enter 的 调用 可 以 认为 是 HARDIRQ 部 分 的 开始 ， 而 
SOFTIRQ 则 在 irq_exit 中 完成 。 


5.4 do IRQ 函数 


上 节 提 到 ，do_IRQ 函数 从 通用 中 断 处 理 函 数 中 发 起 , 负责 整个 中 断 处 理 流程 中 实质 性 的 中 
断 处 理 任 务 。 虽 然 该 函数 在 各 个 平台 上 的 实现 代码 不 尽 相 同 ， 但 是 原理 基本 上 大 辐 小 异 ， 


void _irq_entry do IRQ(unsigned int irq, struct pt regs *regs) 
{ 

struct pt regs *old regs = set_irg regs(regs); 

irq enter(); 

check stack overflow(); 

generic handle irq(irg); 

irq exit(); 

set irq regs(old regs); 
} 


先 看 该 函数 的 两 个 参数 ，irq 是 该 函数 的 调用 者 一 一 通用 中 断 处 理 函 数 从 PIC 中 得 到 的 软件 
HEG, regs 是 保存 下 来 的 被 中 断 任务 的 执行 现场 ， 不 同 的 处 理 器 有 不 同 的 执行 现场 ， 也 
就 是 有 不 同 的 寄存 器 。 


3 对 于 内 核 可 抢占 的 系统 来 说 ， 如 果 之 前 被 中 断 的 路 短 运 行 在 内 核 态 ， 那 么 在 中 断 返回 时 会 启动 调度 器 以 确定 是 否 进行 
进程 切换 。 对 于 没有 局 用 可 抢占 性 的 内 核 ， 被 中 断 的 内 核 路 答 克 续 执 行 ， 中 断 的 返回 不 会 导致 调度 器 的 介入 。 

4 内 核 设计 者 为 设备 驱动 程序 的 中 断 处 理 框架 设 定 的 理想 状况 ， 然 而 真正 的 设备 中 断 处 理 函 数 由 各 个 设 备 驱 动 程序 自己 
提供 ， 它 们 有 具备 足够 的 特权 等 级 来 打开 处 理 器 响应 中 断 的 能 力 。 因 此 ， 内 核 设计 者 不 得 不 额外 提供 一 些 防护 措施 来 防 
止 设备 驶 动 程序 员 一 些 非常 规 的 操作 ， 即 便 这 种 防护 措施 是 非常 有 限 的， 我 们 接 下 来 会 谈 到 这 个 问题 ， 
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函数 首先 调用 set_irq_regs 将 一 个 per-CPU 型 的 指针 变量 irq regs 保存 到 old regs 中 ， 然 
后 将 _irq_regs 赋予 了 一 个 新 值 regs， 这 样 中 断 处 理 过 程 中 ， 系 统 中 的 每 一 个 CPU 都 可 以 
通过 irq regs 来 访问 系统 保存 的 中 断 现 场 。 在 函数 的 结束 ， 调 用 set_irq_regs(old_regs) 来 
恢复 irq regs. _ irq regs 一 般 用 来 在 调试 或 者 诊断 时 打印 当前 栈 的 信息 ， 也 可 以 通过 这 
些 保存 的 中 断 现场 寄存 器 判断 出 被 中 断 的 进程 当时 运行 在 用 户 态 还 是 内 核 态 。 


接 下 来 irq_enter 会 更 新 系统 中 的 一 些 统计 量 , 同时 会 把 当前 栈 中 的 preempt_count 变量 加 上 
HARDIRQ OFFSET 来 标识 一 个 HARDIRQ 中 断 上 下 文 : preempt count) += 
HARDIRQ OFFSET, HARDIRQ 是 Linux 下 对 中 断 处 理 上 半 部 分 的 称谓 ， 与 之 对 应 的 是 中 
断 处 理 的 下 半 部 分 SOFTIRQ, 此 处 irq_enter 告诉 系统 现在 进入 了 中 断 处 理 的 上 半 部 分 。 与 
irq_enter 行为 配对 的 是 irq_exit， 在 当前 中 断 处理 完 成 准备 退出 时 调用 ， 除 了 更 新 一 些 系 统 
统计 量 和 清除 中 断 上 下 文 的 标识 外 ， 它 还 有 一 个 重要 的 功能 是 处 理 软 中 断 ， 也 就 是 中 断 处 
理 的 下 半 部 分 ， 本 书 将 在 “延迟 操作 ”一 章 详细 讨论 软 中 断 的 实现 机 制 。 


check_stack_overflow0) 函 数 用 来 检查 当前 中 断 是 天 会 导致 栈 的 溢出 ， 因 为 每 次 中 断 发 生 时 
系统 都 会 做 保护 现场 的 动作 ， 从 代码 的 层面 ， 就 是 将 系统 的 寄存 器 压 入 中 断 栈 中 。 理 想 情 
况 下 ， 一 个 中 断 处 理 结束 时 将 恢复 现场 ， 也 就 是 将 之 前 在 栈 中 保存 的 寄存 器 弹出 堆栈 ， 因 
此 不 会 发 生 栈 溢出 的 情况 。 但 是 如 果 中 断 处 理 函 数 中 打开 了 处 理 器 响应 外 部 中 断 的 能 力 ， 
那 就 有 可 能 在 当前 中 断 正 在 被 处 理 时 ， 处 理 器 又 接收 到 了 新 的 中 断 ， 也 就 是 所 谓 的 中 断 馈 
套 ， 这 将 寻 致 系统 重复 地 进行 中 断 现 场 保护 的 动作 ， 甚 至 发 生 大 量 的 中 断 骨 套 行为 ， 使 得 
栈 不 断 增 长 ， 从 而 出 现 堆 栈 的 洲 出 ， 影 响 到 系统 的 稳定 性 。 为 此 ， 系 统 使 用 
check stack overflow 函数 米 对 栈 是 天 溢出 进行 检查 ， 如 果 发 现 本 次 中 断 有 可 能 导致 栈 的 涪 
出 ， 通 常会 打印 出 当前 栈 的 信息 (dump stack)， 对 于 某 些 启用 了 watchdog 的 系统 ， 也 可 
能 会 强制 系统 进行 reset 动作 。 


do IRQ 的 核心 是 调用 generic handle irq 因数 ， 后 者 在 其 国 数 调度 链 中 负责 对 当前 发 生 的 
中 断 进行 实际 的 处 理 ; 


<include/linux/irg.h> 


eee ee dà o do cs Re às a ees omo om hm mm om omm oom momo o mA Reo |o oom o9 oco 9404 7034 73 cw CUM CL C" c» O- a 4 Arm m 


static inline void generic. handle _ irg(unsigned int irq) 


1 
struct irq desc *desc = &irq_ desc[irq]; 
desc->handle_irq(irq, desc); 

} 


pA c ast $k erm Br irg 来 索引 数组 irq desc, 得 到 一 个 struct irq_desc 类 型 的 指针 变量 desc. 
然后 调用 其 成 员 函 数 handle irq 对 当前 中 渐进 行 实际 的 处 理 。irq_desc 是 个 struct irq. desc 
类 型 的 数组 ， 在 Linux 的 整个 中 断 处 理 框架 中 非常 重要 ， 起 着 沟通 从 通用 的 中 断 处 理 函 数 
到 设备 特定 的 中 断 处理 例 程 之 间 的 桥梁 作用 ， 图 5-2 展示 了 该 数组 的 组 成 结构 : 
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irq_desc [NR_IRQS] 


sin 


/ \ struct irq data 





* struct irq desc 


图 5-2 irq desc 数组 的 构成 形式 


通 品 ， 其 定义 和 默认 值 如 下 : 


<kernel/irq/irqdesc.c> 


i ed 


struct irq_desc irq_desc[NR IRQS] cacheline aligned in smp = { 
[0 ... NR. IRQS-1] = { 
.handle irq = handle bad irq, 
.depth cad 
Jock = _RAW_SPIN_LOCK_UNLOCKED(irq_desc->lock), 


P 
NR IRQS 是 个 平台 相关 的 常量 , 用 来 表示 特定 的 平台 上 可 以 处 理 的 外 部 中 断 的 数量 。Linux 
操作 系统 初始 化 期 间 通 过 调用 early irq init 函数 来 对 这 个 数组 初始 化 ， 


<kernel/irq/irqdesc.c> 


nt init early irq init(void) 


{ 


=o dh x d mo eee Ro d de c o ee ee 


int count, i, node — first online node; 
struct irq desc *desc; 


init irq. default affinity(); 

printk(KERN INFO "NR_IRQS:%d\n", NR IRQS); 
desc = irq desc; 

count = ARRAY SIZE(irq desc); 


for (i = 0; i < count; i++) { 
desc[i].irq_data.irg = i; 
desc[i].irq_data.chip = &no irq chip; 
desc[i].kstat irqs = alloc percpu(unsigned int); 
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irq settings clr and set(desc, -0, [RQ DEFAULT_INIT_FLAGS); 
alloc masks(desc + i, GFP KERNEL, node); 
desc smp init(desc + i, node); 
lockdep set class(&desc[i].lock, &irq desc lock class); 
} 
return arch early irq init(); 


} 
数组 的 类 型 struct irg desc 是 个 非常 重要 的 数据 结构 , 在 下 面 的 讨论 中 会 经 常用 到 .定义 如 下 : 


<include/linux/irqdesc. h> 


ipl: Ak! ease Sma me ll i usc Eta fe, i Sg fe ne a Se a ee SE ey ee ee we eS Ge a a 


struct irq_desc | 
struct irq data irq data; struct timer rand state *timer rand state; 
unsigned int  percpu  *kstat irqs; irq. flow handler t handle irq; 
#ifdef CONFIG IRQ PREFLOW FASTEOI 
irq preflow handler t preflow handler; 


Hendif 
struct irgaction ‘action; — /* IRQ action list */ 
unsigned int status use accessors; 
unsigned int istate; unsigned int depth; /* nested irq disables */ 


unsigned int wake depth; /* nested wake enables */ 
unsigned int irq count; /* For detecting broken IRQs */ 


unsigned long last unhandled; /* Aging timer for unhandled count */ 
unsigned int irgs unhandled; 
raw spinlock t lock; 


#ifdef CONFIG SMP 
const struct cpumask — *affinity hint; 
struct irq affinity notify "affinity notify; 
fifdef CONFIG GENERIC PENDING IRQ 


cpumask var t pending mask; 
#endif 
#endif 
unsigned long threads_oneshot; 
atomic t threads_active; 
wait_queue head t wait_for threads; 


#ifdef CONFIG PROC FS 
struct proc dir entry ‘dir; 
#endif 
const char *name; 
} cacheline internodealigned in smp; 


struct irq data irq data 
主要 用 来 保存 软件 中 断 号 irg 和 chip 相关 的 数据 ， 
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<include/linux/irqdesc. h> 


和 


struct irq data { 
unsigned int inq; 
unsigned int node; 
unsigned int state use accessors; 
struct irq. chip *chip; 
void *handler data; 
void *chip data; 
struct msi desc *msi desc; 
Hifdef CONFIG SMP 
cpumask var t affinity; 
#endif 


IE 


成 员 irq 代表 软件 中 断 号 。chip 成 员 则 代表 着 当前 中 断 来 目的 PIC，chip 所 在 的 数据 结构 是 
在 软件 层面 对 PIC 的 一 个 抽象 。Linux 通过 封装 在 struct irq_data 中 的 chip 来 屏 项 各 种 不 同 
硬件 平台 上 PIC 的 差异 ， 给 上 层 的 软件 提供 统一 的 对 PIC 操作 的 接口 。 利 用 PIC 中 封装 的 
图 数 ， 可 以 屏蔽 或 启用 当前 中 断 ， 设 定 外 部 设备 中 断 触发 电信 和 号 的 类 型 等 。 


unsigned int  percpu *kstat_irqs 
一 个 per-CPU 型 成 员 ， 用 于 系统 的 中 断 统 计 计 数 。 
irq flow handler t handle irq 


这 是 个 函数 指针 ， 一 般 用 来 指向 一 个 跟 当 前 设备 中 断 触 发 电信 号 类 型 相关 的 函数 。 比 
如 ， 如 果 外 部 设备 的 中 断 电信 和 号 是 边沿 触发 ， 那 么 此 处 handle irq 将 指向 一 个 边沿 触发 类 
的 处 理 函 数 ， 如 果 是 水 平 触发 ， 那 么 将 指向 一 个 水 平 触 发 类 的 处 理 函 数 。 如 果 在 某 一 平台 
上 边沿 触发 的 中 断 和 水 平 触发 的 中 断 处 理 起 来 完全 相同 ， 那 么 就 没有 必要 如 此 细 分 ， 提 供 
一 个 常规 的 处 理 函 数 就 可 以 了 。 在 handle irq 指向 的 函数 内 部 ， 才 会 调用 设备 特定 的 中 断 
服务 例 程 。 特 定 平台 的 Linux 系统 在 初始 化 阶段 会 提供 handle irq 的 具体 实现 ， 这 是 内 核 
设计 者 或 者 嵌入 式 平 台 BSP 模块 5 所 承担 的 任务 ， 设 备 驱 动 程序 员 在 这 一 层面 通常 没有 什 
么 工作 要 做 。 


struct irqaction *action 


action 是 针对 某 一 具体 设备 的 中 断 处 理 的 抽象 。 设备 驱动 程序 会 通过 request irg 来 向 
其 中 挂 载 设 备 特 定 的 中 断 处 理 函 数 ， 相 对 于 前 面 提 到 的 通用 中 断 处 理 函 数 ， 本 书 称 action 
中 的 handler 为 设备 中 断 服务 例 程 ISR， 在 下 一 节 中 将 描述 其 具体 用 法 。 通 过 前 面 讨论 的 


S Linux 嵌入 式 平台 上 的 BSP (Board Support Package) 部 分 通常 包含 了 内 核 代 码 初 始 化 、 配 置 以 及 设备 驱动 程序 ， 本 书 
提 到 BSP， 一 般 是 指 平台 的 初始 化 及 配置 部 分 ， 而 将 设备 驱动 程序 从 传统 意 久 上 的 BSP 概念 中 独立 出 来 。 
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handle irq 和 action， 可 以 看 到 ， 从 通用 中 断 处 理 函 数 发 起 的 对 某 一 中 断 处 理 ， 实 际 上 又 被 
划分 成 了 两 个 层次 , 第 一 层 是 handle irq 函数 , 它 与 软件 中 断 号 irq 一 一 对 应 , 代表 了 对 IRQ 
line 上 的 处 理 动作 ， 而 action 则 代表 着 与 具体 设备 相关 的 中 断 处 型 ， 也 是 设备 驱动 程序 员 
要 直接 与 之 打交道 的 对 象 ， 通 过 action 成 员 ， 可 以 在 一 条 IRQ line LARS PRA, HY 
话说 多 个 设备 可 以 通过 同一 条 IRQ line 来 共享 同一 个 软件 中 斯 号 irq， 形 成 所 谓 的 中 断 链 ， 
所 以 可 以 推 想到 action 中 必然 有 构成 链表 的 成 员 , 图 5-3 展示 了 hangle irq 与 action 的 层次 
RA: 


IRQ line uu handle. irq a eT 





图 $-3 handle irq 与 action 之 间 的 层次 关系 
unsigned int istate 


空 际 的 内 核 源码 中 使 用 的 是 istate JE XE X. core internal state do not mess with it, 
该 成 员 取 代 了 较 早 版 本 中 的 status 成 员 ， 主 要 用 于 当前 中 断 线 IRQ line 上 的 状态 管理 ， 由 
一 组 状态 位 掩 码 构成 ， 比 如 IRQS_ONESHOT、IRQS_WAITING 和 IRQS_PENDING A. 


raw_spinlock t lock 


操作 irq desc 数组 时 用 做 互 斥 保护 的 成 员 ， 因 为 irq desc 在 多 个 处 理 器 之 间 共 享 ， 即 
便 是 单 处 理 器 系统 ， 也 有 并 发 操作 该 数组 的 可 能 。 


const char *name 
handle irq 所 对 应 的 名 称 ， 最 终 显 示 在 /proc/interrupts 文件 中 。 


通过 上 面 的 讨论 ， 为 使 读者 对 Linux 下 的 中 断 处 理 流程 有 个 全 局 性 的 直观 印象 ， 这 里 给 出 
图 5-4. 


从 图 中 可 以 看 到 ,Linux 内 核 将 中 断 的 处 理 分 成 了 两 大 部 分 ,分 别 是 HARDIRQ All SOFTIRQ, 
前 者 一 般 是 在 处 理 器 屏 项 外 部 中 断 的 情况 下 工作 ， 而 后 者 在 工作 前 会 启用 处 理 器 响应 外 部 
中 岂 的 能 力 。 通 用 中 断 处 理 函 数 是 外 部 设备 的 中 断 到 达 处 理 器 后 ， 处 理 器 首先 进入 的 函数 ， 
在 完成 必要 的 工作 后 ， 调 用 do IRQ 来 对 中 断 进 行 实际 的 处 理 。 后 者 通过 引发 本 次 中 断 的 
软件 中 断 号 来 索引 irq desc 数组 ， 找 到 对 应 的 处 理 函 数 并 调用 ， 而 设备 驱动 程序 等 内 核 模 
块 则 通过 修改 irq_desc 数组 中 对 应 项 的 action 成 员 来 达到 安装 或 印 载 设备 中 断 处 理 服务 例 
程 ISR 的 目的 。 设 备 的 中 断 处 理 函 数 调用 结束 后 ， 中 断 流 程 进入 SOFTIRQ 部 分 ， 在 这 里 
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如 果 有 等 待 的 softirq 需要 处 理 ， 则 处 理 之 ， 天 则 返回 到 通用 中 断 处 理 函 数 。 


| Processor | 
| ILE ee 


Washer 


处 理 器 硬件 还 辑 





Linuz 中 断 处 理 流 程 


图 5-4 Linux 中 断 处 理 流程 


5.5 struct irq_chip 


数据 结构 struct irq_data 中 的 struct irq_chip *chip 成 员 用 来 表示 一 个 PIC 的 对 象 ， 如 果 系 统 
中 只 有 一 个 PIC， 那 么 irq_desc 数组 的 每 一 项 中 的 chip 都 应 该 指向 该 PIC 的 对 象 。 平 台 的 
初始 化 函数 负责 实现 该 平台 使 用 的 PIC 的 对 象 并 将 其 安装 到 irq dese MAA. PIC MRA 
来 实现 对 PIC 的 配置 ， 配 置 工作 主要 包括 设 定 外 部 设备 的 中 断 触 发 信号 的 类 型 ， 屏 蔽 或 者 
启用 某 一 设备 的 中 断 信 号 ， 向 发 出 中 断 请 求 的 设备 发 送 中 断 响应 信号 等 。struct irq_chip Œ 


XU: 


«include/linux/irq.h- 


-Te D II LJ -TT ll lil IIS lc 


const char *name; 
unsigned int(*irq startup)(struct irq_data *data); 


void 
void 


void 


void 
void 
void 
void 


void 


(*irq. shutdown)(struct irq. data *data); 
(*irq enable)(struct irq. data *data); 
(*irq. disable)(struct irq data *data); 


(*irq ack)(struct irg. data *data); 

(*irg mask)(struct irq. data *data); 
(*irq mask ack)(struct irq data *data); 
(*irg unmask)(struct irq data *data); 
(*irg_eoi)(struct irg data *data); 


oo moa Bom ON — - a E HR. Lod. Loc c BH OG U oc oo - o2. - o4 oL oo 





void 


void 


void 


void 


void 
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(*irq set affinity)(struct irq_data *data, const struct cpumask *dest, bool force); 
(*irq retrigger)(struct irq data *data); 

(*irq set type)(struct irq. data *data, unsigned int flow type); 

(*irq set wake)(struct irq data *data, unsigned int on); 


(*irg bus. lock)(struct irq. data *data); 
(*irq bus sync unlock)(struct irq data *data); 


(*irq cpu online)(struct irq data *data); 
(*irq cpu offline)(struct irq data *data); 


(*irq print chip)(struct irq data *data, struct seq file *p); 


unsigned long flags; 


/* Currently used only by UML, might disappear one day.*/ 
#ifdef CONFIG IRQ RELEASE METHOD 


void 
#endif 
H 


(*release) (unsigned int irq, void *dev id); 


其 成 员 绝 大 多 数 是 函数 指针 ， 用 来 指向 具体 平台 实现 的 PIC 控制 函数 。 


5.6 struct irqaction 


在 继续 下 面 的 讨论 前 ， 有 必要 了 解 struct irqaction 这 个 重要 的 数据 结构 。 在 struct irq desc 
结构 中 ,成员 变 量 action 是 一 指向 struct irqaction 类 型 的 指针 ， 设 备 驱 动 程序 通过 这 个 结构 
将 其 中 断 处理 函 数 挂 载 在 action 上 。 以 下 是 该 数据 结构 的 定义 ; 


<include/linux/interrupt.h> 


rR 


struct irqaction { 


ee tse Ree ee ee eR BP RK RP RK ee eae e et eee eee lee 


irq handler t handler; 
unsigned long flags; 
void *dev id; 

struct irqaction *next; 


int irq; 


irq handler tthread fn; 
Struct task struct *thread; 
unsigned long thread flags; 
unsigned long thread mask; 
const char *name; 
struct proc dir entry *dir; 
}  -cacheline internodealigned in smp; 
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HP: 
irg_handler_t handler 
HEDRER APT DIFERI RET. irq handler t 的 声明 如 下 : 


<include/linux/interrupt.h> 


人 


typedef irqreturn tt*irq handler {Yint, void 2 


设备 驱动 程序 负责 实现 该 函数 ， 然 后 调用 request irq 函数 ， 后 者 会 把 驱动 程序 实现 的 中 断 
服务 例 程 赋值 给 handler. 


void *dev_id 


调用 handler 时 传 给 它 的 参数 ， 在 多 个 设备 共享 一 个 irq 的 情况 下 特别 重要 ， 这 种 链 式 
的 action 中 ， 设 备 驱 动 程 序 通过 dev id 来 标识 目 己 。 


. struct irqaction *next 


fRIS FA action 对 象 ， 用 于 多 个 设备 共享 同一 个 irq 的 情形 ， 此 时 action 通过 next 
构成 一 个 链表 。 


struct proc dir entry *dir 
中 断 处 理 函 数 中 用 来 创建 在 proc 文件 系统 中 的 目录 项 。 
irq handler tthread fn. struct task struct *thread 和 unsigned long thread flags 


当 驱 动 程序 调用 request threaded irq 函数 来 安装 中 断 处 理 例 程 时 ， 用 来 实现 irq thread 
机 制 |。 


5.7 irq set handler 


现在 把 讨论 的 焦点 集中 到 im desc 数组 中 被 软件 中 断 号 irg 索引 的 某 一 项 irq desc[irg]. X 
于 一 个 特定 的 irqg desc[lirq]， 其 上 的 中 断 处 理 分 为 两 级 ， 第 一 级 是 调用 
irq desc[irg].handle irq， 第 二 级 是 设备 特定 的 中 断 处 理 例 程 ISR， 在 handle irq 的 内 部 通过 
irq_desc[irq].action->handler 调用 。 第 一 级 函数 在 半 台 初始 化 期 间 被 安装 到 irg dese 数组 中 ， 
第 二 级 函数 的 注册 发 生 在 设备 驱动 程序 调用 request irq 安装 对 应 设备 的 中 斯 处 理 例 程 时 。 
第 一 级 函数 主要 面向 PIC 的 某 一 中 渐 线 IRQ line， 第 二 级 函数 则 面向 该 中 断 线 上 连接 的 具 
体 设 备 ， 正 如 我 们 在 前 面 图 5-3 中 看 到 的 那样 。 内 核 通过 这 种 两 级 操作 的 方式 除了 可 以 增 
加 设计 的 灵活 性 外 ， 也 可 以 获得 某 些 额外 的 好 处 ， 比 如 后 面 将 看 到 的 设备 软件 中 断 号 的 探 
测 机 市 等 。 
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从 上 一 节 的 讨论 可 知 ，irq_desc[irq].handle irq 会 被 do IRQ 调用 到 ， 在 Linux 源码 中 
handle irq 的 类 型 声明 如 下 : 


<include/linux/irq.h> | | l | 
typedef void (*irq. flow_handler_t)(unsigned int irq, struct irq_desc *desc); 


为 了 让 平台 的 初始 化 代码 能 够 通过 handle irq 注册 第 一 级 中 断 处 理 函 数 ， 内 核 提 供 了 两 个 
接口 国 数 ，irq_set_ handler 和 irq set chained handler. 
<include/linux/irg.h> mE | PR 
static inline void | irq. set handler(unsigned int irq, irq. flow handler t handle) 
| 
__irq_set_handler(irq, handle, 0, NULL); 
i 


static inline void  irq set chained handler(unsigned int irq, irq. flow handler t handle) 
i 

__irq set handler(irq, handle, 1, NULL); 
} 


参数 handle 就 是 要 安装 在 irq desc[irg].handle irq 上 上 的 第 一 级 处 理 函 数 , 最 终 的 安装 任务 通 
过 irq set handler 来 完成 。 其 原型 如 下 : 


*kernel/irg/chip.c» | | 
void __irq set handler(unsigned int irq, irq. flow handler t handle, int is chained, 
const char *name) 
. irq set handler 在 对 传递 进来 的 参数 作 一 些 必 要 的 检查 后 ， 将 handle 安装 到 irq_desc[irg] 
E: 


irq desc[irg].handle irq = handle; 
irq desc[irg].name = name; 


参数 is chained 用 来 表示 irq_desc[irqj 对 应 的 项 是 否 支 持 中 断 共 享 ， 如 果 是 则 将 
irq desc[irg].status use accessors 作 如 下 设置 ; 

desc->status_use_ accessors |= IRQ NOPROBE | IRQ NOREQUEST; 
.IRQ NOREQUEST 意味 着 对 于 irq_descfirq] il zi» 无 法 通过 request irq 来 安装 中 断 处理 例 
程 。IRQ_NOPROBE 意味 着 无 法 对 irq_desc[irq] 执 行 中 断 号 的 探测 机 制 。 因 此 车 irq_desc[irq] 
对 应 的 项 文 持 中 断 的 共享 ， 那 么 它 将 不 能 支持 自动 探测 中 断 号 ， 这 是 由 自动 探测 机 制 的 设 
计 原 理 所 决 定 的 ， 后 面 会 看 到 这 一 点 。 
作为 handle_irq 的 一 个 具体 实现 例子 ， 下 面 来 看 一 个 用 来 处 理 边沿 中 断 触 发 信号 的 函数 
handle edge irq 的 主要 实现 代码 : 
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<kernel/irq/chip. C> 


void handle edge irq(unsigned int irq, struct ug diese ádeic) 
1 
raw spin lock(&desc-»lock); 
desc->istate &= ~IRQS REPLAY | IROS WAITING), 
J* 
* [f we're currently running this IRQ, or its disabled, 
* we shouldn't process the IRQ. Mark it pending, handle 
* the necessary masking and go out 
+j 
if (unlikely(irqd_irqg_disabled(&desc->irg_data) || 
irqd irg_inprogress(&desc->irq_data)} || !desc->action)) | 
if(lirg check poll(desc)) { 
desc->istate |= IROS PENDING; 
mask ack irq(desc); 
goto out unlock; 


I 
kstat incr irqs this cpu(irq, desc); 


/* Start handling the irq */ 
desc->irq_data.chip->irq_ack(&desc->irq_data), 


do { 
if (unlikely(!desc->action)) { 
mask irq(desc); 


goto out. unlock; 


Fiaa 
* When another irq arrived while we were handling 
* one, we could have masked the irq. 
* Renable it, if it was not disabled in meantime. 
ui 
if (unlikely(desc->istate & IRQS PENDING)) { 
if (lirqd irq disabled(&desc--irq data) && 
irqd irq masked(&desc--irq data)) 
unmask irq(desc), 


handle irq event(desc); 


} while ((desc->istate & IROS PENDING) && 
lirqd irq disabled(&desc-»irq data)); 


out unlock: 
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raw_spin_unlock(&desc->lock); 


} 


desc->istate &= ~( IRQS REPLAY IRQS WAITING) 清 除 掉 IRQ REPLAY 和 IRQ WAITING 
fr, 用 来 实现 设备 软件 中 断 号 的 自动 探测 机 制 , 稍 后 有 专门 的 小 节 讨论 如 何 自动 探测 中 断 号 。 


函数 首先 检查 desc->irq_data 中 的 state use accessors 成 员 ， 确 定 其 IRQD_IRQ_DISABLED 
或 IRQD IRQ INPROGRESS 位 有 没有 被 置 |， 这 两 位 中 的 任 一 位 被 置 1 或 者 desc->action 
ÄT, handle edge irq 函数 都 需要 做 进一步 的 特殊 处 理 。IRQD IRQ. DISABLED 表示 当前 
的 desc 指向 一 个 被 禁止 的 中 断 线 IRQ line, IROD. IRQ INPROGRESS 表示 当前 的 中 断 线 正 
在 处 理 中 ， 同 一 中 断 irq 的 峰 套 或 者 共享 会 出 现 该 情况 。desc->action 为 空 表 示 当 前 中 断 线 
上 尚 没 有 被 安装 特定 的 设备 的 中 断 ISR。 从 设备 驱动 程序 员 的 角度 来 看 ， 这 三 种 情况 出 现 
的 概率 较 小 ， 让 条 件 中 的 unlikely 也 可 说 明 这 一 点 。 这 里 的 特殊 处 理 是 : 


如 果 当 前 的 中 断 线 不 处 在 正 被 轮 询 的 阶段 (IRQS_POLL_INPROGRESS7，handle edge irq 
ity £F desc->istate 的 IRQS_PENDING 位 置 1， 同 时 调用 mask_ack_irq(desc) 利 用 PIC x4 S 
的 irq mask 例 程 将 该 条 中 断 线 在 PIC 中 屏蔽 掉 ， 然 后 将 IRQD IRQ MASKED 位 置 1。 这 
样 的 处 理 其 实 很 好 理解 : 对 一 个 正在 被 处 理 ( 因 此 没有 必要 作 进 一 步 处 理 ), 或 者 被 disabled 
(当前 的 触发 信号 是 非 预期 的 ， 很 可 能 是 一 种 人 为 或 者 硬件 线路 的 故障 导致 的 “ 假 ” 中 断 信 
号 )， 或 者 压根 儿 没 有 安装 设备 中 断 处 理 例 程 ISR《〈 没 有 设备 在 使 用 这 根 中 断 线 )， 对 于 这 
样 的 中 断 线 来 说 ， 这 条 正在 触发 中 断 信和 号 的 IRQ line 都 应 该 被 屏 项 掉 ， 当 然 为 了 后 续 的 跟 
踪 处 理 ，IRQS PENDING 和 IROD IRQ MASKED 位 需要 置 1。 如 果 当 前 中 断 线 正在 被 轮 
询 ， 那 么 需要 根据 轮 询 的 结果 决定 下 一 步 的 处 理 。 


kstat_incr_irqs_this_cpu 用 来 更 新 与 中 断 相 关 的 一 些 统计 量 , 比如 统计 某 一 CPU 上 中 断 发 生 
的 次 数 。 


经 过 上 述 这 些 步 又 之 后 ， 可 以 正式 进入 下 一 阶段 对 该 中 断 信号 进行 处 理 。handle_ edge irq 
首先 调用 desc->irq_data.chip->irq_ack(&desc->irq_data) Pi EX, FAA PIC X129 8] irq ack 例 程 
向 设备 发 出 一 个 中 断 响 应 信和 号， 从 硬件 逻辑 角度 ， 这 一 步 通常 使 得 当前 发 出 中 断 信和 号 的 设 
备 中 产生 一 个 信号 电 平 的 转换 ， 防 止 设备 在 它 的 中 断 已 经 在 设备 驱动 程序 中 处 理 时 依然 不 
停 地 发 出 同一 中 断 信号。 


do while 循环 是 handle edge irq 函数 的 核心 部 分 ,通过 调用 handle irq event 来 对 本 次 中 断 
进行 实际 的 处 理 操作 。do while 中 首先 对 当前 irq 对 应 的 desc->action 指针 进行 判断 ， 如 果 
action 是 个 空 指 针 表 明 到 目前 为 止 还 没有 设备 驱动 程序 在 这 条 中 断 线 上 安装 中 断 处 理 例 程 
ISR， 对 于 这 种 情况 的 处 理 是 调用 mask irq PESO XE PIC 对 象 的 irq mask 例 程 来 屏蔽 掉 当 
前 中 断 线 在 PIC 中 对 应 的 中 断 位 ， 同 时 将 desc->irq_data.state_use accessors 的 
IRQD IRQ MASKED 位 置 1， 这 样 做 是 合理 的 ， 对 于 一 个 没有 安装 中 断 处 理 函 数 的 外 部 中 
上 断 ， 应 该 屏蔽 掉 它 直到 它 的 处 理 函 数 被 安装 上 ， 和 否则 该 设备 将 不 停 地 中 断 处 理 器 。 之 后 再 
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次 对 desc->istate 进行 检查 ， 如 果 发 现 有 等 竺 的 中 断 信和 号 出现 而 县 是 被 屏蔽 掉 的 ， 同 时 其 所 
对 应 的 中 断 线 又 没有 被 disable H, MEXE PIC 的 unmask 涌 数 取消 对 应 设备 的 屏 珊 位 ， 这 
主要 是 针对 中 断 处 理 例 程 在 执行 过 程 中 又 产生 了 新 的 中 断 这 种 情况 ， 对 于 第 二 次 出 现 的 中 
Mr, handle edge irq 做 的 处 理 是 将 desc->istate 上 的 IRQS PENDING 位 和 
desc->irq_ data.state use accessors 上 的 IRQD IRQ MASKED 位 壮 1， 同 时 在 PIC 中 将 对 应 
的 中 断 线 屏蔽 掉 。 这 样 , 当前 的 中 断 处 理 例 程 结束 后 while 循环 条 件 满 足 , 重 新 执行 do while, 
在 接 下 来 的 新 循环 中 ， 这 个 处 于 IRQS PENDING 状态 的 中 断 线 在 PIC 中 的 屏蔽 将 被 解除 ， 
IRQD IRQ MASKED 位 也 被 清除 掉 。 


5.8 handle irq event 


FE 3X handle irq event 的 工作 比较 简单 , 它 为 调用 设备 驱动 程序 安装 的 中 断 处 理 例 程 做 最 后 
的 准备 工作 ， 比 较 容 易 急 躁 的 读者 此 时 也 许 还 要 耐心 - 点， 不 过 我 们 很 快 就 会 看 到 与 具体 
的 设备 中 断 处理 例 程 相 关 的 调用 。 实 现 如 下 ; 


<ke rnel/i rq/handle.c> 
irgreturn t handle irq event(struct irq desc *desc) 
{ 
struct irqaction *action = desc->action; 
irqretum t ret; 


desc->istate 点 = -IROS PENDING; 
irqd_set(&desc->irg_ data, IROD IRQ INPROGRESS); 
raw spin unlock(&desc--lock); 


ret = handle irq event percpu(desc, action); 


raw spin lock(&desc--lock); 
irqd_clear(&desc->irg_ data, IROD IRQ INPROGRESS); 
return ret; 

I 


在 进入 正式 的 设备 中 断 处 理 例 程 之 前 ， 通 过 desc->istate &= ~IRQS PENDING 语句 清除 掉 
IRQS PENDING 位 ， 因 为 紧 接 下 来 就 会 调用 设备 的 中 断 处 理 例 程 ISR， 所 以 
IRQS PENDING ^N BER. 1， 同 时 沉 要 将 当前 的 中 断 线 设置 ROD [RO INPROGRESS 状 
态 ， 表 明 该 中 断 线 上 一 个 中 斯 正 在 被 处 理 。 真 正 的 设备 驱动 程序 实现 的 中 断 处 理 函数 例 程 
的 调用 发 生 在 handle irq event_percpu 函数 中 ， 后 者 在 源码 中 的 实现 为 ; 


ek ee ec al Cm ES ER ORO TS UE ce, ne: ce RR TR m 


handle_irq_event_percpu(struct irq_desc *desc, struct irgaction *action) 
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irqreturn t retval = IRO NONE; 
unsigned int random = 0, irg = desc->irg data.irq; 


do { 
irgreturn t res; 


trace irg handler entry(irq, action); 
res = action->handler(irg, action->dev_id), 
trace irq handler exit(irq, action, res); 


IF(WARN ONCE(!irqs disabled(),"irq You handler YopF enabled interruptsin", 
irg, action->handler)) 
local_irq disable(); 


switch (res) { 
case IRQ WAKE. THREAD: 
J* 
* Set result to handled so the spurious check 
* does not trigger. 
*/ 
res = IRQ HANDLED: 


i* 
* Catch drivers which retum WAKE THREAD but 
* did not set up a thread function 
gli 
if (unlikely(!action->thread_fn)} { 
wam no thread(irg, action); 
break; 


irq wake thread(desc, action); 


/* Fall through to add to randomness */ 
case IRQ HANDLED: 

random |= action->flags; 

break; 


default: 
break; 


retval |= res; 
action = actlon->next; 
} while (action); 
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if (random & IRQF SAMPLE RANDOM) 
add interrupt randomness(irq); 


if (!noirqdebug) 
note interrupt(irq, desc, retval); 
return retval; 


} 


函数 的 主体 是 一 do while 循环 ， 用 于 遍历 action 可 能 形成 的 链表 结构 ， 当 然 大 部 分 情况 下 ， 
一 个 中 断 线 只 安装 了 一 个 设备 中 断 处 理 例 程 ， 此 时 action 对 象 并 不 构成 链表 ， 但 是 从 代码 
中 可 以 清楚 地 看 到 内 核对 同一 中 断 线 上 多 个 设备 共享 中 断 的 支持 。 循 环 的 一 开始 就 通过 
action->handler 来 调用 具体 设备 的 中 断 处 理 例 程 Caction 对 象 中 的 handler 由 设备 驱动 程序 
通过 request irq 函数 进行 安装 ，Linux 下 的 设备 驱动 程序 员 对 此 应 该 不 会 陌生 )。 函 数 接 下 
来 对 action->handler 调用 的 返回 值 进行 处 理 ， 驱 动 程序 中 实现 的 中 断 处 理 例 程 灼 数 绝 大 部 
分 返回 值 IRQ HANDLED, 返回 IRQ_WAKE THREAD 的 情形 相对 比较 少 ， 如 果 返 回 的 是 
IRQ WAKE _ THREAD， 那 么 函数 将 调用 irq_wake_thread 来 唤醒 action->thread 表示 的 一 个 
内 核 线程 ， 关 于 这 种 情形 将 在 后 续 的 中 断 安装 部 分 予以 讨论 。 在 结束 一 个 具体 设备 的 中 断 
处 理 例 程 之 后 ， 函 数 通过 action = action->next 来 获得 action 的 下 一 个 节点 《如 果 节 点 存在 
的 话 )。 


do while 的 循环 条 件 是 action-»next 不 为 定 ， 这 种 情况 表明 正在 处 理 一 个 共享 的 中 断 。 对 共 
享 中 断 形成 的 链 式 结构 的 处 理 是 遍历 action 链表 ， 对 每 一 个 节点 调用 其 上 的 handler 函数 。 


5.9 request irq 


前 面 讲 了 Linux 下 处 理 一 个 外 部 中 断 的 整个 流程 ， 其 中 大 部 分 的 工作 都 是 由 内 核 来 完成 ， 
这 里 之 所 以 用 一 定量 的 篇 幅 对 其 进行 讨论 ， 目 的 是 希望 读者 对 设备 驱动 程序 提供 的 中 断 处 
理 例 程 被 调用 时 的 上 下 文 背景 有 个 清晰 的 认识 ， 这 样 我 们 才能 知道 如 何 去 实 现 一 个 无 安全 
隐患 的 中 断 处 理 例 程 。 现 在 开始 讨论 驱动 程序 如 何 与 Linux 的 中 断 处 理 框 架 进行 变 互 ， 问 
irq desc 数组 中 安装 设备 的 中 断 处 理 例 程 。 驱 动 程序 中 安装 一 个 设备 中 断 服 务 例 程 是 通过 
调用 request irq 函数 完成 的 ， 其 定义 如 下 : 


<include/linux/interrupt.h> 
static inline int — must_check 
request irq(unsigned int irq, irq_handler_t handler, unsigned long flags, 
const char *name, void *dev) 
{ 
return request threaded irq(irq, handler, NULL, flags, name, dev); 


} 
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函数 的 第 一 个 参数 irg 是 当前 要 安装 的 中 断 处 理 例 程 所 对 应 的 软 中 断 号 ，handler 就 是 已 经 
多 次 提 及 的 中 断 处 理 例 程 ISR， 由 设备 驱动 程序 负责 实现 ; flags 是 标志 变量 ， 可 影响 内 核 
在 安装 ISR 时 的 一 些 行为 模式 ，name 是 当前 安装 中 断 ISR 的 设备 名 称 ， 内 核 会 在 proc X 
TE RSF ^E RE name 的 一 个 入 口 点 ; dev 是 个 传递 到 中 断 处 理 人 鲍 程 的 指针 ， 在 中 断 共 享 的 情 
形 下 ， 将 在 free irq 时 被 用 到 ， 以 区 分 当前 的 free_irq 要 释放 的 是 哪 一 个 struct irqaction 对 
象 , 因此 必须 确保 dev 参数 在 内 核 整个 中 断 处 理 框架 中 的 唯一 性 , 由 于 内 核 在 用 request. irg 
安装 一 个 中 断 处 理 例 程 时 并 不 对 dev 的 唯一 性 进行 检查 ， 因 此 设备 驱动 程序 应 该 努力 做 到 
这 一 点 ， 通 常 的 做 法 是 将 设备 驱动 程序 所 管理 的 与 设备 相关 的 某 一 数据 结构 对 象 的 指针 作 
为 dev 的 实 参 。 另 外 ， 由 于 内 核 中 断 处 理 框架 在 调用 设备 驱动 程序 的 ISR 时 ， 会 将 该 dev 
参数 一 并 传 入 ， 因 此 也 可 以 借助 它 在 被 中 断 的 进程 与 中 断 处 理 例 程 中 传递 数据 之 用 。 


request irq 国 数 的 核心 是 通过 调用 request threaded. irg 完成 中 断 处理 函 数 的 实际 安装 工作 ， 
可 以 看 到 request_irq 在 调用 request threaded irq 函数 时 传 入 的 第 三 个 参数 是 NULL， 这 个 
参数 跟 内 核 中 一 个 用 于 中 断 处 理 的 线程 irq_thread AX, 如 果 设 备 驱动 程序 通过 request. irq 
来 安装 一 个 中 断 处 理 例 程 , 因为 对 thread_fn 传 入 的 实 参 是 NULL, 所 以 不 会 涉及 irq thread 
部 分 ， 但 是 设备 驱动 程序 也 可 以 直接 通过 调用 request_threaded_irq 来 安装 中 断 ， 此 时 就 有 
机 会 使 用 到 irq thread 机制。 


request threaded irq 函数 的 实现 源码 为 ; 


rr 
ee? es tes ys id em 


irq handler t thread fn, unsigned long irqflags, 
const char *devname, void *dev id) 


struct irqaction *action; 
struct irq desc *desc; 
int retval; 


if ((irgflags & IROF SHARED) && !dev id) 
return -EINVAL; 


desc = irq to desc(irq); 
if (!desc) 
return -EINVAL; 


if(lirg settings can request(desc)) 
return -EINVAL; 


if (!handler) { 
if (!thread fn) 
return -EINVAL; 
handler = irq. default | primary handler; 
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} 


action = kzalloc(sizeof(struct irgaction), GFP_KERNEL); 
if (action) 
return -ENOMEM; 


action->handler = handler; 
action->thread_fn thread fn; 
action->flags = irqflags; 
action->name = devname; 
action->dev_id = dev id; 


chip bus lock(irq, desc); 
retval = — setup irq(irq, desc, action); 
chip bus sync unlock(irg, desc); 


if (retval) 
kfree(action); 


return retval; 


i 


图 数 一 开 始 进行 了 一 系列 的 检查 。 比 如， 如 果 irgflags 中 的 IROF SHARED 位 被 置 1， 表 明 
正在 安装 一 个 共享 的 中 断 ， 这 种 情况 下 驱动 程序 必须 提供 dev id， 如果 dev id 为 空 则 是 非 
法 情况 ， 因 为 在 fre iq P% UC Wh E SU HE D £X "B — ^R action. wm R 
desc-»status use accessors ff) IRQ NOREQUEST 位 被 置 1， 表 明 irg desc 数组 中 的 这 - - 
项 禁止 通过 request. threaded irq 来 安装 中 断 处 理 函 数 ， 也 是 非法 情况 。 


这 些 检查 通过 之 后 , 函数 调用 kzalioc 分 配 一 块 类 型 为 struct irgaction 的 地 址 空间 action, $^ 


Ja TR dS PA BOE A BS GALL action， 并 调用 setup irq 来 安装 中 断 处 理 函 数 ， | Setup itq 
的 声明 如 下 : 


static int 


. setup irq(unsigned int irq, struct irq_desc *desc, struct irqaction *new); 


KAPE STRE E Ve e EF] RS m SR PIERII ABER, ATLA setup irq 函数 的 源码 实现 看 起 来 比 
较 元 长 ,但 其 实质 性 的 工作 其 实 就 是 将 desc 中 的 action 成 员 指针 指向 要 安装 的 中 断 处 理 例 程 。 


下 面 按照 request irq 调用 时 desc->action 是 否 为 空 分 别 进行 讨论 ( 先 暂 不 考虑 irq_ thread 机 制 )。 
O  desc-»action 为 空 


这 种 情况 比较 简单 ,因为 此 时 desc->action AF, 意味 着 当前 尚 无 设备 驱动 程序 正在 使 用 这 
条 中 断 线 ， 所 以 只 需 先 获得 指向 desc->action 的 指针 old ptr: struct irqaction **old ptr = 
尼 desc->action， 然 后 将 request threaded irq 中 新 分 配 的 action 指针 赋值 给 old ptr Bay: 
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*old ptr = new;. 


Mas d RoE a. AJLA BEET, dd RAR request irq 时 ， 
参数 flags 中 设 定 了 IRQF. TRIGGER. MASK 标志 位 , 表明 驱动 程序 需要 利用 request. irq 对 
irq 的 触发 类 型 进行 配置 ， 因 为 desc->irq data 中 的 chip 是 PIC 的 抽象 ， 所 以 此 时 只 需 调 用 
chip 中 的 irq set type 成 员 国 数 就 可 配置 PIC。 系 统 定义 的 中 断 信号 触发 类 型 标志 有 : 
om eroe 

ji 上 升 沿 触 发 

#define IROF TRIGGER RISING 0x00000001 

/I 下 降 沿 触发 

#detine IRQF_TRIGGER_FALLING 0x00000002 

/高 电 平 触发 

#define IROF TRIGGER HIGH 0x00000004 

/ 低 电 平 触发 

#define IRQF TRIGGER LOW Ox00000008 

人 /中断 触 发 信和 号 掩 码 

#define IROF TRIGGER MASK (IRQF_TRIGGER HIGH | [RQF TRIGGER LOW }\ 

IROF TRIGGER RISING |IRQF TRIGGER FALLING) 


设 定 中 断 触 发 信号 类 型 的 函数 为 ”irq set trigger， 其 主要 功能 是 通过 PIC 对 象 的 
irq_set_type 成 员 消 数 设 定 当 前 中 汤 线 上 有 效 的 中 断 触 发 信号 类 型 ， 同 时 将 设 定 的 类 型 记录 
到 desc->irq_data.state use accessors 中 !: 

<kernel/irq/manage.c> 


int  irq set trigger(struct irq_desc *desc, unsigned int irq, 
unsigned long flags) 


| 
struct irq. chip *chip = desc--irq data.chip; 
int ret, unmask — 0; 
ret = chip-"irq set type(&desc--irq data, flags); 
desc--irq data. state use accessors &- IRQD TRIGGER MASK; 
desc->irq data. state use accessors |= flags; 
上 


因为 不 是 共享 中 断 的 情形 , 所 以 当前 的 request_irq 调用 将 独占 irq 所 对 应 的 中 断 线 的 所 有 权 ， 
可 以 根据 设备 自身 需要 随意 设置 其 中 断 触发 信号 类 型 ， 这 在 存在 中 断 共享 的 情形 下 是 不 可 
能 的 。 

所 以 如 果 驱 动 程序 需要 将 ing 的 触发 信号 配置 成 下 降 沿 触发 ， 可 以 作 如 下 调用 : 


request_irq(irq, demo handler, IROF TRIGGER FALLING, NULL, NULL); 
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OQ  desc-»action 不 为 空 


这 种 情形 表明 当前 irg 所 对 应 的 中 断 线 此 前 已 经 被 安装 了 中 断 处 理 函 数 ， 换 言 之 ,这 意味 者 正 
在 安装 一 个 共享 该 irq 的 中 断 处 理 例 程 。 在 中 断 共享 的 情况 下 ， 事 情 变 得 有 些 复 杂 ， 因 为 在 此 
之 前 至 少 有 一 个 设备 驱动 程序 在 当前 的 中 断 线 上 安装 了 中 断 处 理 例 程 ， 此 时 内 核 再 安装 一 个 
新 的 中 断 处 理 例 程 就 有 了 相当 的 限制 ， 一 个 大 体 的 原则 是 ， 新 的 安装 不 能 破坏 之 前 已 有 的 中 
断 工 作 模式 。 从 代码 的 角度 ， 新 的 irqaction 对 象 的 flags 成 员 必 须 与 action 链 上 已 有 的 节点 的 
flags 成 员 作 检查 比较 ， 如 果 有 不 一 致 的 情形 出 现 ， 安 装 将 不 会 成 功 ， 国 数 返 回 一 个 错误 码 
-EBUSY。 被 检查 的 flags 标志 有 IRQF SHARED. IRQF. TRIGGER, MASK. IRQF ONESHOT 
及 IRQF PERCPU, 这 些 都 是 设备 驱动 程序 在 调用 request_irg 时 通过 参数 flags 传 入 的 标志 位 。 


在 共享 中 断 的 情形 下 , 如 果 新 的 request_irq 调用 去 设 定 当前 的 触发 信号 的 类 型 ，_setup_irq 
函数 并 不 会 去 真正 调用 PIC 对 象 的 irq_set type 函数 , 而 只 是 检查 当前 要 设 定 的 中 断 触 发 信 
号 类 型 是 否 与 这 条 线 上 已 经 设 定 的 类 型 相符 ， 如 果 不 符合 ，_ setup irq 会 给 出 一 个 警告 信 
息 ， 当 前 的 安装 虽然 可 以 成 功 ， 但 是 未 必 能 如 预期 的 那样 正常 工作 。 


如 果 这 些 检查 都 成 功 通 过 ， 那 么 request_irq 此 时 要 做 的 是 ， 将 新 分 配 的 action 加 到 action 
链 的 末尾 。 


ÍE setup irg 函数 的 结束 部 分 ,如果 desc->dir 还 是 空 ,那么 调用 register_irq_proc TE/proc/irq 
目录 下 创建 类 似 /proc/irq/125 这 样 的 新 目录 项 。 最 后 调用 的 register handler proc 在 
action->name 不 为 空 的 情况 下 ， 会 为 此 新 action 在 proc 文件 系统 中 创建 类 似 
/proc/irg/125/action name 这 样 的 目录 。 内 核 通过 这 些 proc 文件 系统 的 操作 ， 可 以 方便 开发 
者 在 用 户 空 间 查 看 系统 中 设备 驱动 程序 的 中 斯 安装 情况 ,例如 x86 平 台 上 对 应 irq=45 的 proc 
文件 系统 节点 的 下 列 输出 : 


root(@AMDLinuxF GL./proc/irg/454 ll 


total 0 

dr-xr-xr-x 3 root root 0 Aug 6 — 17:48. 

dr-xr-xr-x 27 root root 0 Aug 6 — 17:44. 

5 l root root 0 Aug 6 17:48affinity hint 
dr-xr-xr-x 2 root root 0 Aug 6 — 17:48hda intel 
r--r--r I root root 0 Aug 6 17:48node 
-rw------- l root root 0 | Aug 6 | 17:48smp affinity 
r--r-r-- I root root 0 | Aug 6 = 17:48spurious 


5.10 ”中断 处 理 的 irg_thread 机 , 制 


下 面 再 简单 讨论 一 下 内 核 为 中 断 处 理 提供 的 另 一 种 机 制 ， 这 种 机 制 在 设备 驱动 程序 通过 调 
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用 request threaded irq 函数 来 安装 一 个 中 断 时 ， 需 要 在 struct irqaction 对 银 中 实现 它 的 
thread fn 成员。request_threaded irq 函数 内 部 会 生成 一 个 名 为 irq thread 的 独立 线程 : 


<kernel/irq/manage.c> 
. setup irq(unsigned int irq, struct irg. desc *desc, struct irqaction *new) 
{ 


if (new->thread_fn && !nested) { 
struct task_struct *t; 


t = kthread_create(irq_thread, new, "irq/%d-%s", irq, 
new--name); 
if (IS ERR(t)) 
return PTR ERR(t); 
[* 
* We keep the reference to the task struct even if 
* the thread dies to avoid that the interrupt code 
* references an already freed task struct. 
+ 
get task struct(t); 
new->thread = t; 


} 


irq thread 线程 被 创建 出 来 时 将 以 TASK INTERRUPTIBLE 的 状态 睡眠 等 待 中 断 的 发 生 , 当 
中 断 发 生 时 action->handler 只 负责 唤醒 睡眠 的 irq_thread， 后 者 将 调用 action->thread_fn it 
行 实际 的 中 断 处 理工 作 。 因为 irq thread 本 质 上 是 系统 中 的 一 个 独立 进程 , 所 以 采用 这 种 机 
制 将 使 实质 的 中 断 处 理工 作 发 生 在 进程 空间 ， 而 不 是 中 断 的 上 下 文中 ，。 


5.11 free irq 


通过 request irq. 安装 的 中 断 处 理 函 数 ， 如 果 不 再 需要 的 话 应 该 调用 free irq FURR. 
free irq 完成 的 任务 和 request irg 正好 相反 ， 其 声明 如 下 ; 


<include/linux/interrupt.h> 


2o dà ER GL ZR JL GO mà oe ee de oGbode dom om ome mm am me eo r 


extern void free irq(unsigned int irq, void * dev id); 


see A 0m oL oL o£ Lo om ooo oon n m — 4 mom om o ocnomo oc o— oc oon m d dn uk RR GRO bom o o o — — — — a dm dm momo GAS OD ee omo 


根据 第 一 个 参数 irq, PRE irq desc 数组 中 查找 对 应 的 action, WT action 所 在 的 链表 ， 
如 果 有 action->dev_id 一 dev id. 那么 就 找到 了 要 释放 的 action。 找 到 后 调用 kfree 释放 action 
所 占 的 空间 。 如 果 释 放 的 action 是 irq_desc[irq] 中 唯一 的 一 个 action 节点 ， 那 么 释放 后 还 需 
要 把 desc->irq_data.state use accessors 的 IRQD DISABLED 位 置 1， 同 时 调用 
irq desc[irg].chip 的 irq_shutdown 或 者 irq_disable/irqg_mask 函数 在 PIC 中 屏蔽 掉 irq 所 对 应 
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的 外 部 设备 中 断 线 。request_irq 中 建立 的 proc 3C fF Eit Ka EAE AH ER 


5.12 SOFTIRO 


前 面 讨 论 了 HARDIRQ 的 执行 流程 ,下面 册 来 看 看 Linux 内 核 如 何 实现 SOFTIRQ.SOFTIRO 
的 处 理 是 在 do IRQ 函数 的 irq exit 中 实现 的 ,irq_exit 函数 中 实现 SOFTIRQ 调用 的 代码 为 : 
<kernelsoftrqc> — — 
void irq exit(void) 
{ 
sub preempt count(IRQ EXIT OFFS ET) 


if {lin interrupt() && local softirq pending()) 
invoke softirq(); 


i 
函数 首先 把 当前 栈 中 的 preempt_count 变量 减 去 IRQ. EXIT. OFFSET 来 标识 一 个 HARDIRQ 
中 断 上 下 文 的 结束 : preempt_count() -= IRQ_EXIT_OFFSET， 这 步 动作 对 应 do IRQ 中 的 
irq enter. 
TECH RCECPLERTTG AN R27. IRQ EXIT OFFSET-HARDIRQ OFFSET; 如 果 配 置 了 
可 抢占 , 那么 IRQ_EXIT_ OFFSET-(HARDIRQ OFFSET1)， 意 味 着 在 HARDIRQ 部 分 结 
之 后 ， 内 核 已 经 启动 可 抢占 性 。 
invoke_softirq 是 真正 处 理 SOFTIRQ 部 分 的 函数 ， 不 过 这 个 函数 的 调用 有 个 前 提 ， 就 是 if 
中 的 两 个 条 件 : in interrupt 和 local_softirq_pending. 
in interrupt ETR, ENA: 

OE 

#define in_interrupt() (preempt_count() & (HARDIRQ MASK | SOFTIRQ MASK | NMI MASK)) 加 
其 主要 用 意 是 根据 当前 栈 中 的 preempt_count 变量 , 来 判断 当前 是 否 在 一 个 中 断 上 下 文中 执 
行 。 根 据 in interrupt 的 定义 来 看 ，Linux 内 核 认 为 HARDIRQ、SOFTIRQ 和 NMI 都 属于 
interrupt 范畴 。 对 于 HARDIRQ， 前 面 讨论 do IRQ 时 可 以 看 到 在 irq_enter 和 irq_exit 之 间 ， 
内 核 在 preempt count(0 上 标示 了 HARDIRQ OFFSET， 表 示 这 是 个 HARDIRQ 的 上 下 文 。 
Linux 内 核对 preempt count 的 使 用 如 图 5-5 所 示 ; 


26 25 | | 16 15 B 7 0 


图 5-5 preempt count 结构 





SOFTIRQ 
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FAA ay JUL. preempt count 的 低 8 位 与 PREEMPT 相关 ，8~15 位 留 给 SOFTIRQ 使 用 ，16-25 
位 给 HARDIRQ 使 用 ，NMI 占据 1 位 。 
local_softirq pending 也 是 一 个 宏 ， 展 开 为 ; 
Sincludefinuxiirg cpustath> | | 
#define local softirq pending() (irq stat[smp processor id()]. softirg pending) 
irq stat 是 个 数组 ， 其 具体 定义 取决 于 ”ARCH IRQ STAT 宏 ， 在 大 部 分 体系 架构 中 这 是 个 
per-CPU 变量 ， 比 如 对 于 x86 平台 : 
| «arch/x86/include/asm/hardirq.h» 
DECLARE PER CPU SHARED ALIGNED(irq cpustat t, irq stat); 
如 果 没 有 定义 _ARCH IRQ STAT, WMA irq stat 定义 如 下 ; 
een T | 
#ifndef ARCH IRQ STAT 
irq cpustat_tirq stat[NR CPUS] —  cacheline aligned; 


EXPORT SYMBOL(irg_ stat); 
#endif 


基本 上 可 以 认为 这 是 个 per-CPU 变量 ， 系 统 中 的 每 个 CPU 都 拥有 各 自 的 副本 。 其 类 型 
irqg cpustat t 定义 如 下 : 
____Sincludelasm-generic/hardirg.h> — — 
typedef struct { 
unsigned int softirq pending; 

1 cacheline aligned irq cpustat t; 
内 核 用 一 个 无 符号 整 型 _sofiirq_pending 来 表示 当前 正在 等 待 被 处 理 的 softirg， 每 一 种 
softirg E — softirg pending 中 占据 一 位 ， 每 个 CPU 都 拥有 自己 的 ”softirq pending 变量 。 


回 到 irq_exit， 现 在 知道 invoke_softirq 被 调用 的 前 提 是 ， 当前 不 在 interrupt 上 下 文中 而 且 
__softirq_pending 中 有 等 待 的 softirq。 当 前 不 在 interrupt 上 下 文中 保证 了 如 果 代 码 正 在 
SOFTIRQ 部 分 执行 时 〈 此 时 处 理 器 可 以 处 理 外 部 中 断 》， 如 果 发 生 了 一 个 外 部 中 断 ， 那 么 
在 中 断 处 理 函 数 结束 HARDIRQ 部 分 时 ， 将 不 会 处 理 softirq， 而 是 直接 返回 ， 这 样 此 前 被 
中 断 的 SOFTIRQ 部 分 将 继续 执行 。 


现在 开始 讨论 softirq 的 处 理 部 分 ，invoke_softirg 是 ~- 个 宏 ， 定 义 如 下 ;: 


<kernel/softirg.c> 

#ifdef ^ ARCH IRQ EXIT IRQS DISABLED MEM 
* define invoke softirq() . do sofürq() 

Kelse 

# define invoke softirq() do softirq() 
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#endif 


. ARCH IRQ EXIT IRQS DISABLED 是 个 体系 架构 相关 的 宏 ， 用 来 决定 在 HARDIRQ 部 分 
结束 时 ， 有 没有 关闭 处 理 器 响应 外 部 中 断 的 能 力 。 如 果 定 义 了 
_ARCH_IRQ_EXIT_IRQS_DISABLED， 就 意味 着 在 处 理 SOFTIRQ 部 分 时 ， 可 以 保证 外 部 中 
断 已 经 关闭 ， 此 时 可 以 直接 调用 _do softirq， 否 则 调用 do softirg， 后 者 最 终 会 调用 到 
do softirq, 不 过 之 前 要 做 一 些 中 断 屏 项 的 事情 , 保证 ”do softirg 开始 执行 时 中 断 是 关闭 的 ;: 


*kernel/softirq.c» 


ULL ee a E E O E E E a r r r 


asmlinkage void do softirq(void) 
1 

.. u32 pending; 

unsigned long flags; 


if (in interrupt()) 
return; 
local irq save(flags); 
pending = local softirg pending(); 
if (pending) 
— do softirq(); 
local irq. restore(flags); 
} 


. do softirq 的 核心 代码 如 下 : 


<kernel/softirg.c> 


i ee a a a MO KO RO LR Rode — — — — — 0 — - o ovogae Roin Gm Gm Gm GA G6 bó Ade cm de m c—o coo D-- --mmEDS:I------z 


#define MAX SOFTIRQ RESTART 10 
asmlinkage void — do softirq(void 
{ : 
struct softirq action *h; 
__u32 pending; 
int max restart - MAX SOFTIRQ RESTART; 
int cpu; 


pending = local softirq pending); 
__local_bh_disable((unsigned long)  builtin return address(0)); 
cpu = smp processor id(); 

restart: 
set softirg pending(U); 
local irq enable(); 
h = softirq vec; 


do { 
if (pending & 1) { 
h->action(h); 
i 
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h++: 
pending >>= |; 
} while (pending); 


local irq disable(); 

pending = local softirg pending(); 

if (pending && --max restart) 
goto restart; 


if (pending) 
wakeup softirqd(); 


local bh enable(); 
j 


在 具体 讨论 这 个 函数 之 前 ， 先 看 看 系统 定义 的 几 个 softirg 的 类 型 ， 


enum 
{ 
HI SOFTIRQ-0, 
TIMER SOFTIRQ, 
NET TX SOFTIRQ, 
NET RX SOFTIRQ, 
BLOCK SOFTIRQ, 
BLOCK IOPOLL SOFTIRQ, 
TASKLET SOFTIRQ, 
SCHED SOFTIRQ, 
HRTIMER SOFTIRQ, 
RCU SOFTIRQ, 
NR SOFTIRQS 
h 
每 个 softirq 对 应 softirq_pending 中 的 一 个 位 。 其 中 ， HI SOFTIRQ 和 TASKLET SOFTIRQ 
用 来 实现 tasklet, TIMER SOFTIRQ 和 HRTIMER SOFTIRQ 用 于 定时 器 ， 
NET_TX_SOFTIRQ 和 NET RX SOFTIRQ 用 于 网 络 设备 的 发 送 和 接收 操作 ， 
BLOCK SOFTIRQ 和 BLOCK IOPOLL SOFTIRQ 用 于 块 设备 的 操作 ， SCHED SOFTIRQ 
用 于 调度 器 。 


内 核 在 此 基础 上 定义 了 一 个 struct softirq_action 类 型 的 数值 softirq vec, 用 来 放置 softirq 对 
应 的 处 理 函 数 ; 


et e e = =- e a X 


struct softirq action 


t 


TT 


void (*action)(struct softirq action *); 
H 
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<kernel/softirg.c> 


-一 一 一 一 天 


static struct softirq_action softirq_vec[NR_SOFTIRQS] _cacheline aligned in smp; 


所 以 _ do_softirq 的 核心 思想 是 : 从 CPU 本 地 的 _ softirq_pending 的 最 低位 开始 ， 依 次 往 高 
位 扫描 ， 如 果 发 现 某 位 为 1， 说 明 对 应 该 位 有 个 等 待 中 的 softirq 需要 处 理 ， 那 么 就 调用 
softirq_vec 数组 中 对 应 项 的 action 函数 。 这 个 过 程 会 一 直 持 续 下 去 ， 直 到 softirg pending 
为 0。 


具体 的 函数 实现 上 ， 有 以 下 几 点 需要 注意 : 


(1) local bh disable 和 local bh enable 用 来 在 preempt _count() 上 标示 SOFTIRQ 的 上 下 
文 ， 考 虑 到 SOFTIR 执行 过 程 可 能 会 被 外 部 中 断 的 情况 ， 这 可 以 防止 SOFTIRQ 部 分 的 重 
Ao HARA EJE interrupt 的 上 下 文中 才 可 以 进入 到 SOFTIRQ 部 分 。 


(2) 在 执行 softirq 的 前 后 分 别 调用 了 local irq_enable 和 local irq disable, 这 说 明 SOFTIRQ 
部 分 在 执行 时 处 理 器 可 以 响应 并 处 理 外 部 的 中 断 。 


(3) softirq 执行 的 先后 顺序 由 _ softirq_pending 中 的 位 决定 ， 低 位 的 softirq 要 先 于 高 位 的 
softirg 执行 。 


(4) 在 do while 循环 之 后 , 会 再 次 检测 _ softirq_pending 是 否 为 0, 这 主要 是 因为 SOFTIRQ 
在 执行 过 程 中 可 能 被 外 部 设备 中 断 ， 其 设备 驱动 程序 在 实现 该 中 断 处 理 函 数 时 可 能 使 用 了 
一 个 softirq， 因 此 在 do while 循环 之 后 ， 需 要 检测 有 没有 新 加 入 的 softirg 需要 处 理 。 


(5) 如 果 上 面 第 3 步 的 动作 执行 超过 一 定 的 次 数 ， 则 需要 唤醒 ksoftirqd 来 处 理 。 因 为 如 果 
在 SOFTIRQ 部 分 耗费 太 多 的 时 间 ， 会 导致 一 个 中 断 处 理 流 程 迟 迟 无 法 结束 ， 这 意味 着 此 
前 被 中 汤 的 任务 无 法 继续 运行 。 为 了 避免 这 种 情况 ，Linux 系统 在 初始 化 期 间 生 成 了 一 个 
新 的 进程 ksoftirqd， 该 进程 运行 时 要 完成 的 主要 任务 就 是 调用 do sofürq 来 执行 等 待 中 的 
softirq， 如 果 没 有 softirq 需要 处 理 ， 该 进程 将 进入 睡眠 状态 。 


因此 ， 为 了 避免 在 一 个 中 断 的 SOFTIRQ 部 分 耗费 太 多 时 间 处 理 softirq 导致 该 中 断 流程 迟 
REER, _ do softirg 通过 wakeup softirgd 唤醒 ksoftirqd， 让 调度 器 来 平衡 当前 中 断 在 
SOFTIRQ 部 分 的 工作 负荷 。 


XT softirq 更 进一步 的 论述 ， 请 读者 参考 本 书 “ 延 迟 操 作 ” 一 节 。 


5.13 irq 的 自动 探测 


如 果 一 个 设备 的 驱动 程序 无 法 确定 它 所 管理 的 设备 的 软件 中 断 号 irq, 此 时 设备 驱动 程序 可 
以 使 用 irq 的 目 动 探测 机 制 来 获得 其 正在 使 用 的 irge AIA EGRE DE T JL BE D ER CE CZ] 
程序 使 用 ， 需 要 注意 的 是 ， 中 断 探测 机 制 的 实现 需要 内 核 和 驱动 程序 共同 努力 才能 完成 ， 

并 且 这 种 探测 只 限于 非 共享 中 断 的 情况 ,因此 只 有 当 一 个 设备 能 确定 其 irq 不 会 与 别 的 设备 
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共享 时 ， 才 可 以 使 用 这 里 的 探测 。 探 测 前 的 情形 是 ， 该 设备 关联 到 了 某 个 irq, 但 是 因为 设 
备 驱 动 程序 还 不 清楚 是 哪个 irq, 因此 不 可 能 调用 request_irq 来 向 该 irq 安装 中 断 处 理 例 程 ， 
所 以 对 应 该 irq 的 action 为 室 。 探 测 要 完成 的 任务 是 找到 该 设备 所 关联 的 irq。 


探测 的 原理 是 ， 调 用 probe irq on FE ZR irg desc 数组 ， 对 于 每 个 action 为 空 的 元 
素 且 在 该 项 允许 自动 探测 的 情形 下 ， 将 其 istate 上 的 IRQS_WAITING 位 置 1， 然 后 让 设备 
产生 一 次 中 断 ，irq_desc 数组 中 与 该 设备 irg 关联 的 那 一 项 的 第 一 级 中 断 函 数 handle irq 会 
锌 调用 ， 后 者 将 会 清除 IRQS_WAITING 位 ， 然 后 调用 probe irq off 再 遍历 一 遍 irq desc 
数组 ， 对 于 每 个 action 为 空 的 元 素 ， 查 看 其 istate 上 的 IRQS WAITING 位 是 否 被 清 0， 如 
果 是 ， 那 么 该 元 素 对 应 的 irq 就 是 正 与 目前 设备 关联 的 。 


以 下 是 一 个 设备 驱动 程序 用 来 实现 上 自动 探测 的 代码 序列 的 示例 ; 


unsigned long irqs; 
[FE BR TRE AEB EI p T 


irqs = probe irq on(); 
/*4E 4% Sms */ 
msleep(5); 


六 让 设 和 省 产生 一 次 中 断 t 


/* 4% 5ms */ 
msleep(5); 


/* 得 到 探测 到 的 中 断 号 */ 
irq = probe irq off(irqs); 


这 段 代 码 中 用 到 了 probe irq on 和 probe irq off 两 个 函数 ， 它 们 都 是 内 核 为 驱动 程序 实现 
的 自动 探测 接口 函数 ， 下 面 将 看 到 这 两 个 函数 的 实现 原理 。 


probe irq on 函数 的 核心 代码 是 ， 


<kernel/irq/autoprobe.c> 


unsigned long probe irg on(void) — i  iess—<—s—ss 
{ 

struct irq desc *desc; 

unsigned long mask = 0; 


int 1; 


/* 
* quiesce the kernel, or at least the asynchronous portion 
+j 

async synchronize full(); 

mutex lock(&probing active); 
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/* 
* something may have generated an irq long ago and we want to 
* flush such a longstanding irq before considering it as spurious. 
ui 
for each irq desc reverse(i, desc) { 
raw spin lock irq(&desc-»lock); 
if (!desc->action && irq settings can probe(desc)) { 
[* 
* Some chips need to know about probing in 
* progress: 
*/ 
if (desc-^irq data.chip->irq_set_type) 
desc->irq_data.chip->irq_set_type(&desc->irq_ data, 
IRQ TYPE PROBE); 
irq startup(desc); 
} 


raw spin unlock mq(&desc--lock); 


/* Wait for longstanding interrupts to trigger. */ 
} 


raw_spin_unlock_irq(&desc->lock); 


msleep(20), 


J* 
* enable any unassigned irqs 
* (we must startup again here because if a longstanding irq 
* happened in the previous stage, it may have masked itself) 
I 
for each irq desc reverse(i, desc) { 
raw spin lock irq(&desc--lock); 
if (!desc-^action && irq settings can probe(desc)) { 
desc->istate |= IROS AUTODETECT | IRQS_WAITING; 
if (irq startup(desc)) 
desc->istate |= IRQS_PENDING; 
} 
raw spin unlock irq(&desc--lock); 


} 


raw_spin_unlock_irq(&desc->lock); 


/* 
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* Wait for spurious interrupts to trigger 
ui 
msleep( 100); 


i* 
* Now filter out any obviously spurious interrupts 
+ 
for_each_irq_desc(i, desc) | 
raw spin lock irq(&desc-»lock); 


if (desc->istate & IROS AUTODETECT) 1 
/* [t triggered already - consider it spurious. */ 
if (!(desc->istate & IROS WAITING)) { 
desc->istate &= ~IRQS AUTODETECT; 
irq_shutdown(desc); 
} else 
if (1< 32) 
mask |= | << i; 
} 
raw_spin_unlock_irq(&desc->lock); 


} 


return mask: 


} 


函数 的 主体 是 三 个 for each irq desc 所 引导 的 循环 。 第 一 个 for each irq desc 循环 从 后 向 
.前 遍历 irq desc ZX£B, WATE PM T 8R—7 desc， 只 要 能 满足 desc->action HTHH 
desc->status_use_accessors 没有 设置 IRQ NOPROBE 位 ， 那 么 就 通过 PIC PAY irq startup 
函数 把 对 应 的 中 断 启 用 起 来 。desc->action 为 空 说 明 该 irq 上 还 没有 安装 中 断 处 理 例 程 ， 
desc->status use accessors 没有 设置 IRQ NOPROBE 位 说 明说 desc 允许 被 探测 ， 设 备 所 关 
联 的 irg 只 可 能 存在 满足 这 两 个 条 件 的 desc "P. 


第 二 个 for each irq desc 循环 依旧 从 后 同 前 过 历 irq_desc 数组 , 对 于 满足 desc->action 为 空 并 
H desc->status_use_accessors 没有 设置 [IRQ NOPROBE 位 的 desc, E istate 重新 设置 为 ， 


desc->istate |= IRQS AUTODETECT | IRQS_ WAITING; 


第 三 个 for each irq desc 循环 从 前 向 后 遍历 irq desc 数组 ， 对 于 满足 (desc->istate & 
IRQS AUTODETECT) != 0 的 每 一 个 desc， 说 明 它 正 是 我 们 在 探测 的 元 素 ， 此 时 检查 
desc->istate 上 的 IRQS WAITING 位 有 没有 被 置 1。 因 为 根据 探测 的 流程 ， 在 调用 
probe_irq_on 时 ， 豫 动 程序 还 没有 让 设备 产生 中 断 ， 因 此 IRQS_WAITING 位 不 可 能 被 清 0， 
如 果 它 被 清 0， 说 明 该 desc 上 的 第 一 级 函数 被 调用 了 ， 这 意味 着 这 个 irg 所 对 应 的 中 斯 线 
上 正在 产生 无 意义 的 触发 信号 (不 可 能 是 由 安装 了 ISR 的 正常 设备 所 产生 , 因为 request_irq 
在 安装 ISR 时 会 清除 掉 IRQS AUTODETECT 位 )， 对 此 的 处 理 是 通过 PIC BERGE PIE, PA 
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后 继续 查找 下 一 个 irq_desc 元 素 。 
这 个 函数 的 返回 值 如 同 probe_irq_off 中 的 参数 一 样 并 无 实际 的 用 途 。 


当 probe_irq_o 仔 被 调用 时 ， 张 动 程序 已 经 让 设备 产生 了 一 次 中 断 ， 所 以 probe irq off 需要 
使 用 for each irq desc 循环 从 前 向 后 遍历 irq desc 数组 ， 试 图 找到 这 样 一 个 desc: 
(desc->istate & IRQS_AUTODETECT) != 0 并 且 desc->istate 的 IRQS_ WAITING 位 被 清除 ， 
这 正 是 probe_irq_o 信 的 主要 流程 ,如果 找 到 了 设备 所 关联 的 irq 就 返回 之 , 否则 函数 返回 0. 


5.14 中断 处 理 例 程 


如 果 设 备 需 要 通过 中 断 这 种 方式 与 处 理 器 进行 沟通 ， 那 么 它 的 驱动 程序 就 有 必要 实现 一 个 
中 汤 处 理 例 程 并 负责 把 它 安装 到 系统 中 ， 这 样 当 设备 的 中 断 信号 来 临时 ， 处 理 器 才 可 能 调 
用 到 它 的 处 理 例 程 。 虽 然 中 断 处 理 例 程 不 过 是 种 普通 的 函数 ， 但 是 内 核 作 为 这 种 游戏 规则 
的 制定 者 ， 为 了 确保 一 切 尽 在 它 的 掌握 之 中 ， 对 于 中 断 处 理 例 程 的 实现 有 着 特定 的 要 求 。 


首先 ， 从 中 断 处 理 例 程 的 原型 看 ， 它 必须 与 struct irqaction 中 handler 函数 指针 的 原型 保持 
一 致 。 这 很 正常 ,因为 中 断 处 理 例 程 的 安装 ,本 质 上 是 让 这 个 指针 指向 中 断 处 理 例 程 .handler 
的 原型 前 面 提 过 ， 这 里 再 重复 一 遍 : 


typedef irqreturn_t (*irq_handler_t)(int, void *); 
因此 ， 一 个 实际 的 中 断 处 理 例 程 应 该 这 样 声明 自己 


irgreturn t demo isr(int irq, void * dev id); 


函数 的 返回 值 是 个 irqreturn_t 类 型 ， 该 类 型 在 内 核 源 码 中 的 定义 如 下 : 


<include/linux/irqreturn.h> 


和 


ait inl 


IRQ NONE, 
IRQ HANDLED, 
IRQ WAKE THREAD, 
h 
typedef enum irqreturn irqreturn. t; 


因此 ， 中 断 处 理 例 程 只 能 有 三 种 返回 值 ， 分 别 是 ; 
IRQ NONE 

中 断 例 程 发 现 正在 处 理 一 个 不 是 自己 的 设备 触发 的 中 断 ， 此 时 它 唯一 要 做 的 就 是 返回 
该 值 。 


IRQ_HANDLED 
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中 断 处 理 例 程 成 功 地 处 理 了 自己 设备 的 中 断 ， 退 回 仿 值 。 
IRQ WAKE THREAD 
中 断 处 理 例 程 被 用 来 作 唤 醒 一 个 等 待 在 它 的 iq 上 的 一 个 进程 使 用 ， 此 时 它 返回 该 值 。 


其 次 ， 中 断 处 理 例 程 是 在 中 断 上 下 文中 执行 ， 这 对 它 的 实现 提出 了 茶 些 限制 。 因 为 中 断 上 
下 文 不 隶属 于 某 个 进程 ,在 这 里 current§ 指 针 不 再 有 意义 ， 它们 游离 在 Linux 进程 世界 的 边 
缘 ， 因 此 在 这 种 环境 下 绝对 禁止 任何 形式 的 进程 切换 。 实 际 的 代码 实现 中 ， 确 保 中 断 处 理 
上 下 文中 不 出 现 进程 的 切换 并 不 是 件 容易 的 事 , 需要 仔细 审查 中 断 处 理 例 程 中 的 每 行 代码 ， 
包括 调用 的 每 一 个 函数 ， 确 保 它们 不 会 进入 睡眠 状态 而 使 调度 器 介入 其 中 。 一 个 典型 的 例 
子 是 在 中 断 人 处 理 例 程 中 使 用 内 存 分 配 函 数 kmalloc， 如 果 在 调用 这 个 函数 时 使 用 了 
GFP_KERNEL 标志 而 不 是 GFP_ATOMIC， 那 么 很 小 的 概率 下 会 因为 内 存 难以 满足 需求 而 
进入 睡眠 , 虽然 大 部 分 时 间 都 不 会 遇 到 麻烦 , 但 是 偶尔 出 现 的 睡眠 将 会 带 来 真正 的 大 麻烦 。 


最 后 ， 中 断 处 理 例 程 作为 系统 中 的 一 种 并 发 源头 ， 可 能 会 去 访问 一 些 共 享 的 资源 ， 如 果 不 
幸 恰 好 有 别 的 进程 《最 典型 的 是 被 它 中 断 的 进程 ) 也 在 使 用 同样 的 共享 资源 ， 竞 态 将 不 可 
避免， 因此 天 要 考 虚 互 帮 的 机 制 来 保护 。 本 书 第 4 章 讨论 了 内 核 所 提供 的 用 于 互 斥 的 各 种 
机 制 ， 在 中 断 处 理 例 程 中 使 用 这 些 机 制 需要 格外 小 心 ， 防 止 出 现 睡 眠 的 可 能 性 ， 因 此 信号 
量 和 互 斥 锁 诈 先 就 会 锌 排除 掉 ， 绝 大 多 数 的 情况 你 需要 使 用 日 旋 锁 spin lock 及 其 变 体 。 


5.15 中断 共 


即便 PIC 已 经 提供 足够 多 的 中 断 引 脚 供 外 部 设备 使 用 ， 但 也 有 不 够 用 的 时 候 ， 此 时 中 断 共 
享 机 制 可 能 就 会 派 上 用 场 。 所 谓 中 断 共 享 是 指 多 个 设备 共享 一 根 中 断 线 ， 使 用 同一 个 irq。 
对 驱动 程序 来 说 ， 需 要 注意 的 地 方 在 调用 request irq 和 中 断 处 理 例 程 的 实现 上 。 对 于 一 个 
共享 的 中 断 ， 了 驱动 程序 在 调用 request ira 时 应 该 使 用 IROF SHARED 标志 ， 同 时 提供 
dev_id， 提 供 的 dev id 在 中 断 处 理 例 程 中 并 没有 什么 特别 的 用 处 ， 之 所 以 要 求 在 中 断 共 享 
时 提供 这 个 参数 ， 主 要 是 为 了 在 free irg 时 能 在 action 链 中 找到 它 ， 因 此 这 个 dev. id 在 中 
断 共 享 的 action 链 中 应 该 具有 唯一 性 ， 实 际 使 用 中 可 以 像 下 面 这 样 : 


lipDev 是 一 个 指向 设备 相关 的 结构 体 的 指针 
struct demo dev *pDev - ... 


//request irq 
int retval = request irq(irq, demo isr, IROF SHARED, "demo device", pDev); 


$ Linux 内 核实 现 了 一 个 宏 ， 该 宏 通 过 对 当前 堆栈 指针 sp 的 某 种 操作 ， 使 之 指向 当前 进程 的 task_struct 结构 。 具 体 的 实 
现 原 理 属 于 描述 内 核 的 书籍 范 因 了。 中 断 上 下 文 不 是 一 个 task_struct 结构 的 对 象 。 
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接 下 来 是 中 断 共 享 时 的 中 断 处 理 例 程 的 实现 ， 因 为 当 irq 上 的 中 断 发 生 时 ， 内 核 会 调用 irq 
上 的 每 个 action 中 的 handler， 因 此 即便 不 是 你 的 设备 产生 的 中 断 ， 你 的 中 断 处 理 例 程 ISR 
也 会 被 调用 到 ， 因 此 共享 中 断 时 的 ISR 需要 能 判断 是 否 是 自己 的 设备 产生 的 中 断 ， 这 主要 
靠 读 取 自 己 设备 的 中 断 状态 寄存 器 来 完成 。 如 果 发 现 你 的 设备 没有 产生 中 断 ， 那 么 ISR 只 
需要 返回 一 个 IRQ_NONE 就 好 了 ， 下 面 是 一 个 共 至 中 断 下 的 ISR 的 实现 : 
irgretum_t demo isr(int irq, void * dev id) 
{ 
/i 读 取 设 备 中 断 状态 寄存 回 
status = read intr reg(...); 
/1 判断 自己 的 设备 有 没有 产生 中 断 ， 没 有 的 话 直 接 返 回 IRQ_NONE 
if(status & ...){ 
retum IRQ NONE; 
jelse1 
/中 断 处 理 
} 


retum IRQ HANDLED 


5.16 章 小 结 


本 章 讨论 了 Linux 下 一 个 外 部 中 断 发 生 后 的 整个 处 理 流 程 。 通 过 内 核 精 心 设 计 的 中 断 处 理 
框架 ， 如 果 一 个 设备 驱动 程序 为 其 所 管理 的 设备 通过 request irq TEM ST POA FE, AL 
么 该 设备 产生 的 中 断 在 中 断 处 理 框架 中 经 过 多 层 的 调用 ， 最 终 会 进入 到 该 中 断 处 理 例 程 中 
来 。 可 以 看 到 ， 这 其 中 大 部 分 的 任务 来 自 于 内 核 的 代码 〈 媒 入 式 系统 还 需要 BSP 代码 )。 
驱动 程序 对 中 断 的 交 持 相对 简单 ， 只 需要 实现 中 断 处 理 例 程 钞 数 并 调用 request_irq 向 系统 
注册 即 可 ， 在 某 些 特定 的 情形 下 ， 设 备 驱 动 程 序 也 可 以 使 用 request threaded irg PE BOK I] 
系统 注册 中 断 处 理 例 程 ， 比 如 需要 使 用 irq thread 机 制 。 了 解 整 个 中 断 处 理 流程 ATT 
解 中 断 处 理 例 程 的 执行 环境 ， 避 免 因 为 不 安全 的 中 断 例 程 实现 给 系统 造成 负面 影响 。 


Linux 内 核 将 中 断 处 理 分 成 了 HARDIRQ 和 SOFTIRQ 两 部 分 。HARDIRQ 在 执行 时 中 断 是 
关闭 的 ， 因 此 这 部 分 的 代码 应 该 完成 中 断 处 理 中 最 关键 的 任务 ， 执 行 时 间 也 应 尽 可 能 短 。 
如 果 需 要 执行 时 间 很 长 的 操作 ， 可 以 将 其 延迟 到 SOFTIRQ 部 分 执行 ， 因 为 SOFTIRQ 部 分 
在 执行 时 处 理 器 的 中 断 是 打开 的 。 


TE 


延迟 操作 


有 些 时 候 设备 驱动 程序 可 能 需要 延迟 某 些 操 作 的 进行 ， 典 型 的 情况 是 在 处 理 设 备 中 断 的 时 
候 ， 正 如 我 们 在 本 书 第 5 章 中 断 处 理 中 了 解 到 的 ，Linux 内 核 将 对 一 个 外 部 设备 中 断 的 处 
理 分 成 两 大 部 分 HARDIRQ 和 SOFTIRQ, [A HARDIRQ 部 分 在 执行 时 处 理 器 的 中 断 是 关 
闭 的 ， 所 以 驱动 程序 的 中 断 处 理 例 程 在 这 部 分 只 应 该 完成 一 些 关 键 的 中 断 操作 ， 而 将 耗 时 
的 工作 延迟 到 SOFTIRQ 部 分 执行 。 内核 为 此 给 驱动 程序 提供 了 一 个 基于 SOFTIR 的 任务 
延迟 的 实现 机 制 tasklet。 因 为 tasklet 需要 在 中 断 上 下 文中 执行 ， 所 以 有 些 延 迟 的 操作 无 法 
用 tasklet 来 完成 , 为 此 内 核 义 提供 了 一 个 基于 进程 的 延迟 操作 实现 机 制 一 一 工作 队列 work 


queue 


本 章 将 先 描述 tasklet 和 工作 队列 的 内 核实 现 机 制 ， 然 后 再 分 别 讨论 设备 驱动 程序 如 何 使 用 
它们 来 实现 延迟 的 操作 . 当然, 驱动 程序 中 可 以 使 用 的 延迟 操作 机 制 并 非 只 有 softirg/tasklet 
和 工作 队列 workqueue 这 两 种 ,比如 定时 器 timer 也 可 以 用 来 实现 延迟 的 操作 。 不 过 笔者 打 
算 把 timer 放 到 “时 间 管 理 ” 一 章 中 讨论 ， 因 为 定时 器 timer 和 时 间 管 理 这 一 话题 在 逻辑 上 
的 联系 要 更 紧密 一 些 。 


6.1 tasklet 


tasklet 是 内 核定 义 的 几 种 softirq 之 一 ， 设 备 驱 动 程序 的 中 断 处 理 例 程 常常 利用 tasklet 来 完 
成 一 些 延 后 的 处 理 。 根 据 优 先 级 的 不 同 ， 内 核 将 tasklet 分 成 两 种， 在 sofürq 中 对 应 
TASKLET SOFTIRQ 和 HI_SOFTIRQ, 后 者 的 执行 顺序 优 于 前 者 。Linux 内 核定 义 的 softirg 
有 : 


<include/linux/interrupt.h> 


las “ie a Fen WE le he i a wn ls: ee Fe TR ae ti ke came as E ee Mee ae i aie sed Sl eae a ny ee em Mey i a SS Gamer per pes pe Some ee ie ie gs ey Se me a Se ee a E 


HI_SOFTIRQ=0, 
TIMER_SOFTIRQ, 
NET_TX_SOFTIRQ, 
NET_RX_SOFTIRQ, 
BLOCK_SOFTIRQ, 
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BLOCK_IOPOLL_SOFTIRQ, 

TASKLET_SOFTIRQ, 

SCHED_SOFTIRQ, 

HRTIMER_SOFTIRQ, 

RCU_SOFTIRQ, /* Preferable RCU should always be the last softirq */ 


NR, SOFTIRQS 
H 


其 中 HJ SOFTIRQ 和 TASKLET SOFTIRQ 就 是 本 章 要 讨论 的 主题 tasklet。 


6.1.1 tasklet 机 制 初 始 化 


Linux 系统 初始 化 期 间 通 过 调用 softirq init 为 TASKLET SOFTIRQ 和 HI SOFTIRQ 安装 了 
执行 函数 ; 


a o o& — — c3 com ow i — — a now -eee TEE a r 


void init softirg init(void) 
{ 


int cpu; 


for each possible cpu(cpu) { 
int i; 


per cpu(tasklet vec, cpu).tail = 
&per cpu(tasklet vec, cpu).head; 
per cpu(tasklet hi vec, cpu).tail = 
&per cpu(tasklet hi vec, cpu).head; 
for (i = 0;1< NR. SOFTIRQS; i++) 
INIT LIST HEAD(&per cpu(softirg work list[i], cpu)); 
} 


register_hotcpu_notifier(&remote_softirq_cpu_notifier); 


open_softirq(TASKLET_SOFTIRQ, tasklet_action); 
open sofürq(HI. SOFTIRQ, tasklet hi action); 
} 


SHAY for each possible cpu 循环 用 来 初始 化 管理 tasklet 链表 的 变量 tasklet vec 和 
tasklet hi vec, 稍 后 会 谈 到 这 两 个 变量 的 具体 用 途 。.open_sofiirq 用 来 给 TASKLET SOFTIRQ 
和 HI SOFTIRQ 安装 对 应 的 执行 函数 ; 


softirg vec[TASKLET SOFTIRQJ.action = tasklet action; 
softirg vec[HI SOFTIRQ].action = tasklet hi action; 


上 述 代码 中 ，softirq_vec 是 一 个 struct softirq action 类 型 的 数组 ， 数 组 中 的 每 一 项 都 对 应 一 
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个 软 中 断 处 理 函 数 指针 。 该 数组 在 源码 中 的 定义 如 下 : 


软 中 断 处 理 函 数 原 型 则 由 struct softirq_action 来 定义 ; 


<include/linux/interrupt.h> 


n EI tI LL 


struct softirg action 


{ 


void (*action)(struct softirg action *); 
IM 
如 此 ， 在 中 断 处 理 的 SOFTIRQ 部 分 ， 如 果 发 现 本 地 CPU AY softirq pending 上 
TASKLET SOFTIRQ 或 者 HI SOFTIRQ 位 被 置 1， 就 将 调用 tasklet action 或 者 
tasklet hi action。 后 面 会 看 到 “softirq_ pending 与 softirg_vec 数组 间 的 对 应 关系 。 


6.1.2 提交 一 个 tasklet 


本 节 将 讨论 设备 驱动 程序 如 何 利 用 内 核 握 供 的 tasklet 机 制 来 实现 一 个 延迟 的 操作 。 内 核 为 
此 定义 了 一 个 表示 tasklet 对 象 的 数据 结构 struct tasklet_struct: 


<include/linux/interrupt.h> 


mom om ern = rr rr 


struct tasklet struct 


{ 
struct tasklet struct *next; 
unsigned long state; 
atomic t count; 
void (*func)(unsigned long); 
unsigned long data; 

n 

其 中 


struct tasklet_ struct *next 
用 来 将 系统 中 的 tasklet 对 象 构建 成 链表 . 
unsigned long state 


记录 每 个 taske 在 系统 中 的 状态 ， 其 值 是 枚 举 型 变量 TASKLET STATE SCHED 和 
TASKLET STATE RUN 两 者 之 一 .TASKLET STATE SCHED 表示 当前 tasklet 已 经 被 提交 ; 
TASKLET STATE RUN 只 用 在 对 称 多 处 理 器 系统 SMP 中， 表示 当前 tasklet 正在 执行 。 


atomic_t count 
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用 来 实现 tasklet 的 disable 和 enable 操作 , count.counter-0 表示 当前 的 tasklet 是 enabled 
的 ， 可 以 被 调度 执行 ， 否 则 便 是 个 disabled 的 tasklet， 不 可 以 被 执行 。 


void (*func)(unsigned long) 


该 tasklet 上 的 执行 函数 或 者 延迟 函数 ， 当 该 tasklet 在 SOFTIRQ 部 分 被 调度 执行 时 ， 
该 函数 指针 指 癌 的 函数 被 调用 ， 用 来 完成 驱动 程序 中 实际 的 延迟 操作 任务 。 


unsigned long data 


func 所 指向 的 立 数 被 调用 时 ，data 将 作为 参数 传 给 fune 函数 。 驱 动 程序 可 以 利用 data 
回 tasklet 上 的 执行 函数 传递 特定 的 参数 。 


驱动 程序 为 了 实现 基于 tasklet 机 制 的 延迟 操作 ， 首 先 需 要 声明 一 个 tasklet 对 象 。 驱 动 程序 
可 以 用 DECLARE TASKLET 宏 声 明 并 初始 化 一 个 静态 的 tasklet TR: 


<include/linux/interrupt.h> 
#define DECLARE TASKLET(name, func, data) ^ 
struct tasklet struct name = ( NULL, 0, ATOMIC INIT(O), func, data ! 


相对 于 DECLARE, TASKLET ZZ, 男 一 个 相似 的 宏 DECLARE. TASKLET. DISABLED 则 用 
来 声明 一 个 处 于 disabled 状态 的 tasklet WR: 


define DECLARE TASKLET DISABLED(name, func, data) \ 
struct tasklet struct name = { NULL, 0, ATOMIC_INIT(1), func, data } 


LA bee M4, name 是 声明 的 tasklet X1 S815 44 9k, func 是 驱动 程序 中 用 来 实现 延迟 操作 的 
Pia, data 是 传递 给 func 函数 的 参数 。 


如 来 驱动 程序 在 运行 过 程 中 构建 了 一 个 tasklet 对 象 ， 这 种 情况 下 对 tasklet 对 象 的 初始 化 可 
以 通过 调用 函数 tasklet_init 来 完成 : 
eee Boc Lis Oo IEEE RETO 
void tasklet initstructtasklet struct t, — = 
void (*func)(unsigned long), unsigned long data) 


A M MGE II—————B——Ée cT 


{ 
t->next = NULL; 
t->state = 0; 
atomic_set(d&t->count, 0); 
t->func = func; 
t->data = data; 

} 


声明 了 tasklet 对 象 之 后 ， 驱 动 程序 需要 调用 tasklet schedule 来 向 系统 提交 这 个 tasklet。 这 
里 所 谓 的 提交 ， 实 际 上 就 是 将 一 个 tasklet 对 象 加 入 到 tasklet vec 管理 的 链表 中 。 对 于 
HL_SOFTIRQ， 提 交 tasklet 对 银 的 函数 为 tasklet hi _ schedule， 除 了 用 来 管理 tasklet WARE 
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表 的 变量 为 tasklet_hi vec 外 ， 其 他 方面 完全 一 样 。 鉴 于 这 种 代码 层面 的 一 致 性 ， 所 以 接 下 
来 把 讨论 的 主角 设 定 为 tasklet schedule。 为 了 方便 这 里 的 讨论 ， 这 里 对 tasklet_schedule PR 
数 进 行 了 轻微 的 改动 。 

«include/linux/interrupt.h- 

static inline void tasklet schedule(struct tasklet struct *t) 


{ 
unsigned long flags: 
if (ltest and set bit(TASKLET STATE SCHED, &t->state)){ 
local irq. save(tlags); 
t->next = NULL; 
* get cpu var(tasklet vec).tail = t; 
. get cpu var(tasklet vec).tail = &(t->next); 
raise softirg irgoff TASKLET SOFTIRQ); 
local irq restore(flags); 
} 
} 


函数 中 用 到 的 tasklet_vec 是 个 per-CPU 型 的 变量 , 用 来 将 系统 中 所 有 通过 tasklet schedule PR 
数 提交 的 tasklet 对 象 构 建成 链表 ， 如 果 是 多 处 理 器 系统 ， 那 么 每 个 处 理 器 都 将 用 各 自 的 
tasklet vec 链表 管理 提交 到 其 上 的 taskletutasklet vec 在 Linux 源码 中 具体 的 声明 和 类 型 如 下 : 


<kernel/softirq.c> 


nomomomoc ee xxt o* 


struct tasklet head 


{ 
struct tasklet struct *head; 
struct tasklet struct **tail; ` 
h 
static DEFINE PER CPU(struct tasklet head, tasklet vec); 
Kp: 


struct tasklet struct *head 
head 总 是 指向 tasklet 对 象 链表 的 第 一 个 节点 。 
struct tasklet_struct **tail 


这 是 个 指向 tasklet 对 象 指针 的 指针 。 实 际 使 用 中 ，tail 总 是 保存 tasklet 链表 最 后 一 个 
节点 所 在 tasklet 对 象 中 next 成 员 的 地 址 。 


tasklet_vec 变量 的 初始 化 最 早 发 生 在 Linux 系统 初始 化 阶段 调用 的 softirq init 函数 中 .上 一 
小 节 提 到 了 该 函数 , 在 那里 将 tasklet vec 的 成 员 head 的 地 址 赋 给 了 tail, 在 tasklet schedule 
函数 中 正 是 通过 操作 tail 的 方式 将 tasklet 对 象 依 次 加 入 到 了 链表 中 。 
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TASKLET STATE RUN. 内 核 通过 这 种 方式 实现 了 tasklet 的 串 行 化 : 任 一 时 刻 tasklet 只 可 
能 在 一 个 CPU 上 运行 。 对 于 单 处 理 器 , 不 存在 tasklet 运行 冲突 的 问题 , 所 以 tasklet trylock 
直接 返回 1. 


接 下 来 通过 atomic read 对 tasklet 的 count 成 员 进 行 测试 , 这 个 成 员 主 要 用 来 实现 enable 或 
者 disable 一 个 tasklet， 如 果 某 个 tasklet 对 象 的 count 为 0， 说 明 它 处 在 enabled 的 状态 。 对 
于 一 个 enabled 的 tasklet, 需要 再 测试 其 state 的 TASKLET STATE SCHED 位 有 没有 被 置 1， 
提交 tasklet 的 函数 会 设置 该 位 ， 如 果 该 位 没有 被 设置 ， 说 明 tasklet_action 函数 正 试图 调度 
一 个 没有 被 提交 的 tasklet， 这 是 非 正常 状况 。 如果 一 切 顺 利 ， 当 前 tasklet 上 的 函数 被 调用 ， 
意味 着 延迟 的 操作 开始 进行 。 从 代码 中 可 以 看 到 ， 如 果 一 个 tasklet 被 调度 执行 完 之 后 ， 其 
state 的 TASKLET STATE SCHED 位 被 清 0， 这 意味 着 除非 被 再 次 提交 ， 否 则 下 次 的 
SOFTIRQ 部 分 将 不 会 再 调度 到 它 ， 这 是 一 种 one-shot 特性 ， 提交 一 次 ， 调 度 运 行 一 次 ， 运 
行 完 后 就 从 CPU 的 tasklet vec 链表 中 消失 ， 除 非 有 代码 再 次 提交 该 tasklet WH. 


通过 上 面 对 tasklet_action 的 分 析 可 以 看 出 ， 一 个 提交 的 tasklet 在 被 SOFTIRQ 调度 执行 完 
后 ， 将 从 当前 处 理 器 的 tasklet vec ARPER, EEEIEE RRT, SHA tasklet HAG 
不 会 有 机 会 被 再 次 运行 。 同 时 ， 内 核对 tasklet 的 实现 机 制 确保 了 同一 个 tasklet 对 象 不 会 同 
时 在 不 同 的 处 理 器 上 运行 ， 因 此 驱动 程序 在 实现 tasklet 的 延迟 函数 时 ， 无 须 考 虑 多 处 理 器 
间 的 并 发 问题 。 另 外 ，tasklet 运行 在 中 断 上 下 文 环境 中 ， 因 此 在 中 断 上 下 文中 的 种 种 限制 
同样 适用 于 tasklet 的 延迟 函数 。 这 些 都 是 tasklet 这 种 机 制 最 典型 的 特质 。 


6.1.4 tasklet 的 其 他 操作 


前 面 已 经 讨论 了 tasklet 的 整个 实现 机 制 ， 下 面 在 此 基础 上 讲述 tasklet 一 些 其 他 的 操作 ， 包 
括 如 何 disable 和 enable 一 个 tasklet 等 。 


O tasklet disable 和 tasklet disable nosync 


这 两 个 函数 可 以 用 来 disable 一 个 tasklet， 使 之 无 法 被 SOFTIRQ 调度 运行 。 函 数 定义 为 : 


<include/linux/interrupt.h> 


a rr 一 


| 
atomic inc(&t-count), 
smp mb after atomic inc(); 


) 


static inline void tasklet disable(struct tasklet struct *t) 
{ 

tasklet disable nosync(t); 

tasklet unlock wait(t); 

smp mb() 
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/设备 相关 的 指针 


static struct demo dev * p=...; 


HEAR fE BK 
void demo delay action(unsigned long data) 


( 
/通过 data 获得 设备 相关 指针 
static struct demo_dev * pdev = (static struct demo_dev *)data; 
/延迟 操作 


} 


JW 用 DECLARE_TASKLET(name, func, data) 定 义 一 个 tasklet 对 象 demo tasklet 
DECLARE TASKLET(demo tasklet, demo delay action, (unsigned long)p); 


/中 断 处 理 例 程 
irgretum t demo isr(int irq, void * dev id) 
{ 


/通过 tasklet_schedule 实现 延迟 操作 
tasklet_schedule(&demo_tasklet); 
} 


示例 中 的 demo delay action 函数 将 延迟 到 中 断 处 理 的 SOFTIRQ 部 分 才 会 被 执行 到 。 


6.1.3 tasklet_action 


上 一 小 节 讨 论 了 设备 驱动 程序 通过 tasklet_ schedule 向 系统 提交 一 个 tasklet 对 象 执行 延迟 操 
作 的 实现 机 制 ， 本 节 将 会 看 到 中 断 处 理 的 SOFTIRQ 部 分 如 何 去 调 用 这 些 延 迟 的 操作 函数 。 


XE “tasklet 机 制 初始 化 ” 小节， 内 核 为 TASKLET SOFTIRQ 和 HI SOFTIRQ 分 别 安装 了 执 
行 函数 tasklet action 和 taskiet_hi_action， 鉴 于 这 两 个 执行 函数 的 实现 机 制 完 全 一 样 ， 在 此 
只 对 tasklet action 的 实现 机 制 进行 分 析 。 下 面 是 这 个 函数 的 实现 : 


<kernel/softirg.c> 
static void tasklet_action(struct softirq_action *a) 
{ 


struct tasklet struct *list; 


local irq disable(); 

list - — get cpu var(tasklet vec).head; 

. get cpu var(tasklet vec).head = NULL; 

. get cpu var(tasklet vec).tail = & get cpu var(tasklet vec).head; 
local irq enable(); 
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函数 首先 检查 要 提交 的 tasklet 的 state 上 的 TASKLET STATE SCHED 位 有 没有 置 1， 对 一 
个 尚未 提交 过 的 tasklet 对 象 来 说 ， 其 值 应 该 是 0， 所 以 test and set bit 函数 会 返回 0， 同 时 
把 tasklet 的 state 上 的 TASKLET STATE SCHED 位 置 1 表明 这 个 tasklet 已 被 提交 ,此 后 该 
tasklet 对 象 的 TASKLET STATE SCHED 位 一 直 为 1 直到 被 调度 运行 ， 因 此 一 个 tasklet 对 
象 在 被 成 功 提 交 进 系统 但 尚未 被 调度 执行 时 ， 处 于 TASKLET STATE SCHED 状态 。 此 时 
即便 是 在 多 处 理 器 系统 中 ， 运 行 在 其 他 处 理 器 上 的 tasklet schedule 函数 也 无 法 再 次 提交 一 
个 处 于 TASKLET_STATE_SCHED 状态 的 tasklet HR, 因此 一 个 tasklet Xf S& E E — In] [8] HÀ 
可 能 在 一 个 处 理 器 上 运行 ， 而 不 会 同时 有 多 个 实例 在 不 同 的 CPU 上 运行 。 


如 果 tasklet 可 以 被 提交 ， 那 么 接 下 来 的 工作 就 是 把 它 加 入 到 当前 处 理 器 tasklet vec 管理 的 
链表 中 , 然后 再 通过 raise softirq irgoff(TASKLET SOFTIRQ) 调 用 告诉 SOFTIRQ 部 分 当前 
处 理 器 有 个 TASKLET_SOFTIRQ 正 等 待 处 理 。raise softirg_irgoff 用 一 个 整 型 变量 的 位 来 表 


示 该 位 上 是 否 有 待 决 的 softirq 等 待 处 理 ，1 表示 有 ，0 则 是 没有 。 


关于 tasklet vec 建立 链表 的 操作 , 因为 接 下 来 的 讨论 中 还 会 经 常见 到 , 读者 不 妨 通过 图 6-1 
来 建立 个 初步 的 印象 ; 





图 6-1 tasklet vec 链表 


图 中 ，tasklet vec 的 head 成 员 总 是 指向 所 管理 链表 的 第 一 个 节点 ，tail 总 是 保存 链表 最 后 
一 个 节点 next 成 员 的 地 址 。 作 为 示例 ， 图 中 的 0xE2042608 表示 next 所 在 的 内 存 地 址 ， 这 
里 笔者 简单 地 用 一 根 带 箭头 的 线 指向 链表 的 最 后 一 个 节点 。 这 样 ， 如 果 要 把 一 个 新 的 节点 
t 加 入 到 链表 尾部 ， 只 需 如 下 操作 即 可 ; 

t->next = NULL; 


* get cpu var(tasklet vec).tail = t; 
. get cpu var(tasklet vec).tail = &(t->next); 


其 实 像 这 种 单 向 链表 的 操作 很 简单 ， 似 乎 用 不 着 通过 tasklet vec 这 种 很 绕 的 方式 来 实现 ， 
但 是 Linux 内 核 这 样 做 有 它 的 道理 ， 后 面 在 讨论 tasklet_action 的 时 候 会 看 到 这 点 。 


下 面 是 一 个 设备 驱动 程序 在 其 中 断 处 理 例 程 demo_isr 中 通过 tasklet schedule 实现 的 一 个 延 
述 操作 示例 ; 


S68 延迟 操作 211 


它 的 中 断 处 理 例 程 中 同样 会 调用 tasklet schedule 把 同一 个 tasklet 对 象 向 处 理 器 B 上 的 
tasklet vec 链表 提交 ， 因 为 该 tasklet 的 TASKLET STATE SCHED 状态 位 已 经 被 清除 ， 所 
以 提交 是 可 能 成 功 的 。 如 此 就 可 能 出 现 同一 tasklet 对 象 的 执行 函数 在 不 同 的 处 理 器 上 同时 
运行 的 情形 ， 因 此 while 循环 需要 某 种 机 制 来 确保 这 种 情况 不 会 发 生 。 我 们 不 妨 把 这 个 问 
题 称 为 SMP 中 tasklet 运行 冲突 的 问题 , 等 下 会 在 while 循环 具体 的 代码 实现 中 看 到 内 核对 
此 给 出 的 解决 方案 。 


其 次 , 在 while 循环 中 tasklet action 通过 一 个 本 地 变量 list 来 实现 对 tasklet 链表 的 遍历 。 对 
于 裔 历 过 程 中 的 每 一 个 tasklet 节点 ， 如 果 不 满足 执行 的 条 件 ， 将 通过 操作 tasklet_vec.tail 
指针 将 其 重新 加 入 tasklet vec 链表 ， 如 果 它 被 成 功 执 行 了 ， 那 么 该 tasklet 对 和 象 将 不 会 再 出 
HLF tasklet vec 链表 中 。 通过 局 用 一 个 本 地 变量 list, 使 得 我 们 在 调用 tasklet 上 的 执行 函数 
时 ， 无 须 再 考虑 list 链表 的 互 太 访问 问题 ， 因 此 读者 可 以 看 到 tasklet 上 的 执行 函数 在 运行 
期 间 ， 中 断 是 打开 的 ， 这 也 是 SOFTIRQ 当初 的 设计 初 囊 。 如 果 考 虑 到 在 某 个 tasklet 运行 
期 间 发 生 了 中 断 ， 那 么 可 能 会 有 新 的 tasklet 要 被 提交 到 当前 处 理 器 的 tasklet_vec 链表 上 ， 
不 过 这 不 会 影响 到 list 所 在 链表 ， 新 的 tasklet 对 象 将 会 加 入 到 tasklet vec 链表 中 。 如 此 ， 
在 tasklet action 执行 前 后 ，tasklet vec 链表 发 生 的 变化 是 ， 一些 新 的 tasklet 对 象 可 能 被 提 
奖 进 来 ， 只 是 因为 还 没有 被 运行 过 ， 所 以 新 节点 将 处 于 TASKLET STATE SCHED 状态 ， 
而 被 运行 过 的 老 节点 其 TASKLET_STATE_SCHED 状态 位 将 被 清除 ， 而 且 也 不 会 再 出 现在 
当前 处 理 器 的 tasklet vec 链表 中 。 


现在 来 看 看 while 循环 实际 的 代码 ，tasklet_trylock 在 单 处 理 器 系统 中 直接 返回 1， 在 多 处 
TH 中 ， HEME: 
,fineludefinuxinterrupthe OO 
static inline int tasklet trylock(struct tasklet struct *t) 


{ 
return !test_and_set_bit(TASKLET_STATE_RUN, &(t)->state); 
} 


图 数 将 tasklet 中 state 的 TASKLET_STATE_RUN 位置 1, 同时 返回 TASKLET STATE RUN 
位 原来 的 值 .因此 ,while 循环 中 的 证 (tasklet trylock(t) 实 际 上 就 是 用 来 解决 前 面 提 到 的 SMP 
中 tasklet 运行 冲突 的 问题 的 。 在 SMP 系统 中 一 个 运行 中 的 tasklet (其 
TASKLET STATE RUN 位 被 置 1，TASKLET STATE SCHED 位 被 清 0) 有 可 能 被 重新 提 
变 到 另 一 个 处 理 器 的 tasklet_vec 链表 中 ， 为 了 防止 该 tasklet 同时 在 不 同 的 处 理 器 上 运行 ， 

内 核 在 SMP 系统 中 为 tasklet 对 象 增加 了 一 个 额外 的 状态 位 TASKLET STATE RUN， 这 个 
状态 位 只 对 SMP 系统 有 效 ， 单 处 理 器 系统 不 需要 这 个 状态 。 内 核 用 tasklet 对 象 的 
TASKLET STATE RUN 位 来 标记 对 应 的 tasklet 当前 是 否 正在 运行 ， 如 果 没 有 ， 那 么 
tasklet_trylock(t) 将 返回 真 , 同时 tasklet trylock 也 会 将 state 中 的 TASKLET STATE RUN 位 
置 1， 这 样 别 的 CPU 再 运行 tasklet_action 时 ， 将 不 会 处 理 该 tasklet 直到 其 运行 完毕 清除 掉 
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while (list) { 

struct tasklet struct *t = list; 

list = list->next; 

if (tasklet trylock(t)) { 

if (latomic read(&t--count)) | 
if(!test and clear bit(TASKLET STATE SCHED, &t->state)) 
BUG); 

t->func(t->data); 
tasklet_unlock(t); 
continue; 


j 
tasklet unlock(t); 
} 


local_irq_disable(); 

t->next = NULL; 

* get cpu var(tasklet vec).tail = t; 

. get cpu var(tasklet vec).tail = &(t->next); 
. raise softirg irqoff(TASKLET_SOFTIRQ), 
local irq enable(); 


j 


函数 的 主体 是 个 while 循环 ， 在 进入 while 循环 之 前 ， 需 要 得 到 tasklet 链表 的 头 指 针 ， 这 和 需 
要 访问 per-CPU 变量 tasklet _ vec， 因为 该 变量 用 来 管理 tasklet 链表 ，tasklet_vec.head 指向 
tasklet 链表 的 第 一 个 节点 。 注 意 在 访问 tasklet vec 之前， 函数 用 local_irq disable 关闭 了 处 
理 器 的 中 断 , 这 是 因为 虽然 tasklet vec 在 系统 的 每 个 处 理 器 中 都 有 个 副本 ,但 是 在 单一 CPU 
的 范围 里 ， 依 然 存在 SOFTIR 在 执行 时 被 外 部 设备 中 断 ， 在 它 的 中 断 处理 例 程 中 使 用 到 
了 tasklet 的 功能 比如 调用 tasklet schedule 来 提交 一 个 tasklet 对 象 , 这 样 会 导致 两 个 执行 路 
径 都 有 操作 tasklet vec 的 可 能 性 。 所 以 此 处 用 local irq disable 和 local irq_enable 来 保护 
tasklet vec 不 会 在 可 能 的 并 发 访问 中 遭 到 破坏 ， 其 间 的 代码 将 tasklet vec 管理 的 链表 的 第 
一 个 节点 存放 在 本 地 变量 list 中， 然后 将 tasklet vec 设置 成 其 最 初 的 状态 (HER). 


在 继续 对 while 循环 中 代码 的 讨论 之 前 ， 有 两 点 需要 注意 。 


首先 ，tasklet_action 作为 一 个 softirq 执行 函数 ， 在 多 处 理 器 系统 中 可 能 同时 在 不 同 的 CPU 
上 运行 。 虽 然 一 个 处 于 TASKLET STATE SCHED 状态 的 tasklet 对 象 不 能 被 多 次 提交 ， 但 
是 当 一 个 tasklet 对 铺 被 调度 运行 时 ，TASKLET STATE SCHED 状态 位 会 被 清除 ， 这 样 就 
可 能 导致 该 tasklet 对 象 在 别 的 处 理 器 上 被 重新 提交 。 考 虑 一 下 如 下 的 情形 : 在 一 个 有 A 和 
B 两 个 处 理 器 的 系统 中 ， 某 设备 对 处 理 器 A 产生 了 一 次 中 断 ， 在 它 的 中 断 处 理 例 程 中 会 调 
FH tasklet schedule 函数 向 系统 提交 一 个 tasklet WR, 假设 处 理 器 A 已 经 进入 本 次 中 断 处 理 
的 SOFTIRQ 部 分 并 且 正 在 运行 该 tasklet, 注意 此 时 它 的 TASKLET STATE SCHED 状态 位 
已 经 被 清除 ， 此 时 该 设备 又 产生 了 一 次 中 断 ， 这 次 的 中 断 发 送 给 了 处 理 器 B， 处 理 器 B 在 
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} 


disable 本 身 的 行为 很 简单 ， 将 要 操作 的 tasklet HH t 上 的 count 加 1 就 可 以 了 。 相 对 于 
tasklet_disable_nosync, tasklet disable 是 个 “同步 ”版 本 ， 它 在 调用 tasklet disable nosync 
图 数 之 后 ， 会 再 调用 tasklet_unlock_wait 函数 实现 所 谓 “ 同 步 ” 功 能 ， 这 里 的 术语 “同步 ” 
只 限于 SMP 系统 ， 单 处 理 器 系统 中 ，tasklet_ unlock wait 什么 也 不 做 。 多 处 理 器 系统 中 ， 
t) disable 的 tasklet 正在 运行 ， 那 么 tasklet unlock wait 要 一 直 忙 等 待 到 + 的 
TASKLET_STATE_RUN 状态 位 被 清除 , 就 是 说 tasklet disable 要 等 到 { 运 行 完毕 才 会 返回 ， 
这 意味 着 tasklet disable 返回 之 后 ， 可 以 确保 该 tasklet 不 会 在 系统 的 任何 地 方 运行 。 


一 个 处 于 disabled 状态 的 tasklet 可 以 被 提花 到 tasklet_vec 中 ， 但 是 不 会 被 调度 执行 。 
O  tasklet enable 


tasklet enable 函数 用 来 enable 一 个 tasklet， 其 定义 如 下 : 


<include/linux/interrupt. h> 


a a rr 


static inline void tasklet - enable(struct tasklet struct *t) 
{ 

smp mb before atomic dec(); 

atomic dec(&t-^count); 
t 


将 指定 的 tasklet SR t 上 的 count Z& 1。 一 个 tasklet 对 象 要 能 被 执行 ，count 应 该 为 0。 所 
以 如 果 想 enable 一 个 先前 被 disable 的 tasklet， 使 之 能 被 调度 执行 ，taskiet_ enable 和 
tasklet disable 的 调用 次 数 要 匹配 。 


©  tasklet kill 


<kernel/softirq. c> 


一 一 本 本 本 町村 本 本 本 本 本 本 本 天 西国 本 GRO Ws o à 0 — e — R EE E 5 wo" 


void tasklet_kill(struct tasklet_struct *t); 


€ oW Rm X ae ee en O a O a a EEEE emo m 


该 函数 通过 清除 一 个 tasklet 对 象 的 TASKLET STATE SCHED 状态 位 ， 使 SOFTIRQ 不 再 
能 够 调度 运行 它 。 如 果 当 前 tasklet 对 象 正在 运行 ， 那 么 tasklet kill 将 忙 等 待 直 到 tasklet 运 
行 结 束 ， 这 样 可 以 确保 tasklet kill 返回 后 系统 中 不 再 有 运行 中 的 该 tasklet 对 象 。 如 果 一 个 
tasklet 对 象 锌 提交 到 了 系统 但 还 设 有 被 调度 执行 ， 那 么 针对 该 tasklet 对 象 调用 tasklet kill, 
后 者 将 会 睡眠 直到 该 tasklet 被 执行 完 从 tasklet vec 链表 中 移 除 ， 所 以 tasklet_kill 是 个 可 能 
会 被 阻塞 的 函数 。 


一 般 在 设备 驱动 程序 所 在 的 内 核 模块 要 被 移 除 或 者 是 设备 要 被 关闭 时 ， 才 调用 该 函数 ， 因 
为 这 种 情况 下 虽然 你 可 以 删除 tasklet 对 象 所 在 的 空间 ， 但 这 不 会 影响 到 tasklet vec 已 有 的 
链表 元 素 构成 ， 所 以 一 个 可 能 的 情况 是 ,在 你 的 驱动 模块 已 经 移出 系统 ，SOFTIRQ 还 是 调 
度 运行 了 你 的 驱动 程序 提交 的 tasklet 对 象 ， 这 是 一 种 危险 情况 ， 因 为 当 你 的 模块 已 经 从 系 
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统 中 移 除 之 后 ， 被 调度 运行 的 tasklet 函数 也 许 会 使 用 到 模块 中 的 资源 ， 但 是 现在 它们 已 经 
不 存在 了 。 内 核 模块 调用 tasklet_kill 可 以 确保 不 会 发 生 这 种 情况 。 


6.2 工作 队列 work queue 


工作 队列 是 设备 驱动 程序 可 以 使 用 的 男 一 种 延迟 执行 的 方法 。 为 了 实现 这 种 延迟 执行 的 机 
制 ， 内 核 或 者 驱动 程序 需要 建立 一 套 完整 的 基础 设施 ， 这 里 的 设计 思想 与 现实 中 的 工厂 加 
工 非常 相像 :基础 设施 就 是 一 条 加 工厂 的 成 产 流水 线 和 在 流水 线 上 工作 的 工人 ， 平 时 没事 
的 时 候 ， 流 水 线 上 的 工人 就 休息 。 如 果 某 一 客户 想 要 加 工 一 件 工件 ， 只 需要 把 要 加 工 的 工 
件 打 个 包 《〈 包 里 放 有 记载 该 工件 应 该 如 何 加 工 的 文档 )， 扔 到 流水 线 上 ， 然 后 客户 可 以 继续 
做 目 己 的 事情 。 流 水 线 上 的 工人 发 现 有 活 要 做 ， 就 结束 休息 ， 帮 助 客户 加 工 工件 。 这 个 我 
们 所 熟悉 的 场景 对 应 到 Linux 内 核 代码 的 世界 ， 流 水 线 变 成 了 worklist， 工 人 变 成 了 
worker thread, 17 MELA CIFRE struct work struct 对 象 ， 把 包 扔 到 流水 线 的 工作 变 成 了 
queue work 函数 的 调用 等 等 ， 所 有 这 些 我 们 都 将 在 接 下 来 的 内 容 中 看 清 它 们 的 内 部 运作 流 
程 。 为 了 叙述 上 的 方便 ， 我 们 不 妨 就 把 这 整个 所 谓 的 基础 设施 统称 为 工作 队列 。 


内 核 本 身 提 供 了 一 套 默 认 的 工作 队列 ， 但 是 驱动 程序 自身 也 可 以 另起炉灶 创建 属于 自己 的 
基 工 作 队 列 。 本 市 将 先 从 驱动 程序 创建 自己 的 工作 队列 谈 起 ， 讨 论 整 个 延迟 处 理 的 工作 流 
程 , 然后 再 把 讨论 的 范围 延伸 到 内 核 自己 创建 的 基础 设施 上 去 , 最 后 对 比 工作 队列 与 tasklet 
机 制 的 区 别 以 及 各 外 的 适用 场景。 


6.2.1 数据 结构 


在 具体 讨论 创建 工作 队列 的 内 核 机 制 之 前 ， 先 交代 几 个 核心 的 数据 结构 ， 它 们 在 后 面 的 讨 
论 中 会 频频 出 现 。 


eee eee eo 


struct work struct { 
atomic long t data; 
struct list head entry; 
work func t func; 
HE 
驱动 程序 要 通过 工作 队列 实现 延迟 操作 时 ， 需 要 生成 一 个 struct work struct MR, ABE 
之 为 工作 节点 ， 然 后 通过 queue work 函数 将 其 提交 给 工作 队列 。 


atomic long t data 


驱动 程序 可 以 利用 data 来 将 设备 驱动 程序 使 用 的 某 些 指针 传递 给 延迟 函数 。 


struct list head entry 
双向 链表 对 象 ， 用 来 将 提 人 交 的 等 待 处 理 的 工作 节点 形成 链表 。 

work func tfunc 
工作 节点 的 延迟 函数 ， 用 来 完成 实际 的 延迟 操作 。 其 原型 定义 如 下 : 
typedef void (*work_func_t)(struct work_struct *work); 


<kernel/workqueue.c> 
struct cpu_workqueue_struct | 


spiniock t lock; 
struct list head worklist; 
wait_queue_head_t more_work; 
struct work struct *current work; 
struct workqueue struct *wq; 
struct task struct *thread; 

} . | cacheline aligned; 


实际 的 代码 中 ，struct cpu workqueue struct XJ $& JÉ^^ per-CPU 型 的 变量 ， 通 过 
alloc_percpu RAS OB, AB PH BRS CPU 都 有 一 份 ， 本 书 称 struct 
cpu_workqueue struct 为 CPU 工作 队列 管理 结构 。 


spinlock t lock 
对 象 的 目 旋 锁 ， 用 于 对 可 能 的 并 发 访问 该 对 象 时 提供 互 斥 保护 机 制 。 
struct list head worklist 


双 问 链表 对 象 ， 用 来 将 驱动 程序 提交 的 工作 节点 形成 链表 。 驱 动 程序 中 的 延迟 操作 以 
工作 节点 的 形式 存在 。 


wait queue head t more work 


等 竺 队列 头 节点 ， 工 作 队 列 的 工人 线程 (worker thread). 没有 工作 节点 需要 处 理 时 将 
进入 王 眠 状态 ， 此 时 它 需 要 进入 该 等 待 队 列 。 


struct work struct *current work 
用 于 记录 当前 工人 线程 正在 处 理 的 工作 节点 。 
struct workqueue_struct *wq 
指向 系统 工作 队列 管理 结构 ， 接 下 来 有 它 的 具体 定义 。 


struct task struct *thread 
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指向 工人 线程 所 在 的 进程 空间 结构 workqueue struct. 


struct workqueue_struct { 
struct cpu_workqueue_struct *cpu wq; 
struct list head list; 
const char *name; 
int singlethread; 
int freezeable; 
int rt; 


h 
相对 于 上 面 的 CPU 工作 队列 管理 结构 , 本 书 称 struct workqueue struct 为 工作 队列 管理 
结构 ， 内 核 会 为 创建 的 每 个 工作 队列 生成 一 个 工作 队列 管理 结构 对 象 。 


struct cpu_workqueue_struct *cpu wq 


指向 CPU 工作 队列 管理 结构 的 per-CPU 类 型 的 指针 。 根据 该 指针 , 系统 中 的 每 个 CPU 
都 可 以 通过 per cpu ptr 来 获得 属于 自己 的 CPU 工作 队列 管理 结构 的 对 象 。 


struct list_head list 


双 问 链表 对 象 ， 用 于 将 工作 队列 管理 结构 加 入 到 一 个 全 局 变量 workqueues 中 ， 只 对 非 
singlethread 工作 队列 有 效 。 


const char *name 
工作 队列 的 名 称 。 
int singlethread 
标识 创建 的 工作 队列 中 工人 线程 的 数量 。 
int freezeable 
表示 进程 可 否 处 于 冻结 状态 。 
int rt 


用 来 调整 worker thread 线程 所 在 进程 的 调度 策略 。 


6.2.2 create_singlethread_workqueue 和 create_workqueue 
设备 驱动 程序 通过 这 两 个 函数 创建 属于 自己 的 基础 设施 ， 严 格 地 说 ， 其 实 它们 是 宏 ， 不 过 


这 种 文字 上 的 小 区 别 对 理解 整个 流程 的 内 核实 现 并 没有 什么 特别 的 意义 ， 所 以 不 妨 先 展开 
来 看 看 它们 各 自 的 定义 ， 
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<include/linux/workqueue.h> 


BE ildefine create workqueue(name) . €reate workqueue key ((name), 0, 0, 0,NULL, NULL) 
#define create singlethread workqueue(name) \ 
. Create workqueue key ((name), 1, 0, OONULL,NULL) 


— rr 


所 以 最 终 调 用 的 函数 是 ”create workqueue key, 这 才 是 真正 的 核心 图 数 ，create_workqueue 
和 create_singlethread_workqueue 的 区 别 在 于 调用 _create_ workqueue key 时 的 第 二 个 参数 ， 
接 下 来 讨论 create workqueue key 函数 的 实现 时 再 来 看 这 个 参数 对 驱动 程序 而 言 意味 着 
什么 。 


内 核 源 码 中 create_ workqueue key 的 定义 如 下 : 


<kernel/workqueue.c> 


struct workqueue struct * create workqueue key(const char *name, 
int singlethread, 
int freezeable, 
int rt, 
struct lock class key *key, 


const char *lock name) 


struct workqueue struct *wq; 
struct cpu workqueue struct *cwq; 
int err = 0, cpu; 


wq = kzalloc(sizeof(*wq), GFP KERNEL); 
if (wq) 
retum NULL; 


wüQ--cpu wq = alloc percpu(struct cpu workqueue struct); 
if (!wq->cpu_wa) 1 

kfree(wq); 

retum NULL; 


wq->name = name; 
wq->singlethread = singlethread; 
wq->treezeable = freezeable; 
wq->rt = rt; 

INIT LIST HEAD(&wq--list); 


if (singlethread) { 
cwq = init cpu workqueue(wq, singlethread cpu); 
err = create workqueue thread(cwq, singlethread cpu); 
start workqueue thread(cwq, -1); 
) else { 
cpu maps update begin(); 
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spin_lock(&workqueue_lock); 
list_add(&wa->list, &workqueues); 
spin_unlock(&workqueue_ lock); 
for each possible cpu(cpu) 1 
Cwq = init cpu workqueue(wq, cpu); 
if (err || 'epu. online(cpu)) 
continue; 
err — create workqueue thread(cwq, cpu); 
start workqueue thread(cwq, cpu); 
j 
epu maps update done(); 


} 


if (err) { 
destroy_workqueue(waq); 
wq = NULL; 

f 

retum wq; 


I 


图 数 一 开 始 便 调 用 kzalloc 生成 了 一 个 工作 队列 管理 结构 的 对 象 wa 并 初始 化 ， 同 时 利用 
alloc_percpu 图 数 生成 了 per-CPU 类 型 的 CPU 工作 队列 管理 结构 对 象 ， 


wq->cpu_wq = alloc_percpu(struct cpu_workqueue_ struct); 
接 下 来 函数 根据 参数 singlethread 的 值 对 单线 程 队列 和 多 线程 队列 分 别 进行 处 理 。 
create_singlethread_workqueue 阔 数 生成 的 工作 队列 是 单线 程 的 ，singlethread=1， 对 这 种 情 
况 ， 函 数 需 要 做 的 是 ; 


C1) 调用 init_cpu_workqueue 函数 ， 在 该 函数 中 获得 系统 中 第 一 个 CPU (代码 中 的 称谓 是 
singlethread_cpu) 对 应 的 CPU 工作 队列 管理 结构 的 指针 cwq， 同 时 初始 化 cwq 中 的 等 待 队 
列 和 双向 链表 等 成 员 变 量 。 


(2) Val} create workqueue thread 函数 生成 工人 线程 Cworker thread). Linux 内 核 中 所 谓 
的 内 核 线程 其 实 是 一 个 进程 ， 拥 有 独立 的 task struct 结构 ， 这 里 的 工人 线程 也 不 例外 。 
create workqueue thread 图 数 实际 的 操作 是 生成 一 个 新 的 进程 , 将 该 进程 task struct 中 保存 
有 进程 执行 现场 寄存 器 的 pe 值 指向 worker thread 函数 1( 本 书 称 worker thread 函数 为 工人 
线程 的 线程 函数 )， 这 样 当 该 进程 被 调度 运行 时 将 执行 worker thread 函数 ， 传 给 函数 的 参 
数 是 系统 中 第 一 个 CPU 上 的 cwq 指针 。 新 进程 的 task. struct 结构 体 指针 p 将 保存 在 CPU 
工作 队列 管理 结构 的 thread 成 员 中 : cewq->thread = p. 


1 新 进程 的 实际 入 口 点 被 设置 为 kernel thread helper 函数 ,这 样 当 新 进程 第 次 被 调度 运行 时 将 调用 kernel thread helper 
函数 ， 在 那里 才 会 调用 worker thread At RATE IRA] worker. thread 函数 之 前 将 返回 地 址 设 定 为 do exit, uneg 
worker thread 函数 结束 运行 ， 进 程 将 在 do_exit PITS. ATW RAE PAY worker thread 呐 数 不 会 轻易 退出 。 
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(3) 调用 start workqueue thread 函数 ， 后 者 再 通过 wake up process 函数 将 新 进程 投入 到 系 
统 的 运行 队列 中 :，wake_up_process(p)， 如 此 之 后 新 进程 就 具备 了 被 调度 器 调度 运行 的 条 件 。 
如 果 singlethread AV 1, 284 create workqueue key 将 对 系统 中 的 每 个 CPU 调用 
singlethread 中 的 三 大 步骤 ， 这 样 每 个 CPU 都 将 拥有 自己 的 CPU 工作 队列 管理 结构 和 工作 
在 其 上 的 工人 线程 。 这 种 情况 下 , 工作 队列 管理 结构 对 象 wq 还 将 把 自己 加 入 到 workqueues 
管理 的 链表 中 : 

list_add(&wq->list, &workqueues); 
workqueues 是 一 个 全 局 型 的 双向 链表 对 象 , 用 来 链接 系统 中 所 有 非 singlethread 的 工作 队列 : 

RERO PWOISQUBUO E 
static LIST HEAD(workqueues); 


图 6-2 描述 了 工作 队列 的 实现 框架 ; 





cpu_wq —] 
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| singlethread 












































图 6-2 工作 队列 实现 框架 

图 中 , 内核 部 分 描述 了 通过 create singlethread workqueue 或 者 create workqueue 创建 的 工作 队 
列 及 其 上 的 工人 线程 worker thread， 后 者 的 任务 是 操作 worklist 链表 上 的 工作 节点 ， 如 果 
worklist 上 面 没有 工作 节点 ,那么 worker_thread 所 在 的 进程 将 进入 睡眠 状态 并 驻 留 在 more_work 
维护 的 等 待 队 列 中 ,驱动 程序 部 分 将 要 延迟 的 操作 打包 进 struct work struct 类 型 的 工作 节点 中 ， 
然后 通过 queue work 向 worklist 上 提交 该 工作 节点 ， 最 后 唤醒 worker thread 线程 。 


图 6-2 描述 的 是 singlethread 工作 队列 , 对 于 非 singlethread 工作 队列 ， 上 面 的 工作 原理 依然 
适用 ， 只 是 此 时 系统 中 的 每 个 CPU 都 拥有 自己 的 工作 队列 和 工人 线程 worker thread. € T 
驱动 程序 提交 节点 时 向 哪个 工作 队列 提 区 ， 在 queue work 部 分 再 讨论 。 

6.2.3 工人 线程 worker_thread 


工人 线程 worker. thread 用 来 处 理 驱 动 程序 提交 到 工作 队列 中 的 工作 节点 , 如 果 工 作 队 列 中 
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没有 节点 需要 处 理 ， 那 么 它 将 睡眠 在 cwq->more work 表示 的 等 待 队列 中 。worker thread 
运行 在 一 个 独立 的 新 进程 空间 中 。 
NN osa atop ah Ee 


static int worker - thread(void + _ewq) 


i 
struct cpu_workqueue_struct *cwq =__cwq; 
DEFINE_WAIT(wait); 


if (cwq->waq->freezeable) 
set freezable(); 


for (;:) { 
prepare to wait(&cwq--more work, &wait, TASK INTERRUPTIBLE); 
if (!freezing(current) && 
!kthread should stop() && 
list empty(&cwq-worklist)) 
schedule(); 


finish. wait(&cwg-more work, &wait); 
try to freeze(); 


if(kthread should stop()) 
break; 


run workqueue(cwwq); 


return (): 


worker thread 的 主体 是 一 for(;;) 循 环 , € H H kthread should stop WA WE 5 BY e OS] 
它 调用 了 kthread _ stop， 如 果 有 的 话 ， 代 表 该 线程 的 kthread 对 象 的 should stop 成 员 将 被 置 
1， 此 时 worker thread 将 通过 break 跳出 循环 ， 线 程 函 数 所 在 的 进程 将 会 终结 。 如 果 
worker thread 不 需要 stop MH cwq->worklist 上 也 没有 工作 节点 等 待 处 理 , 工人 线程 将 调用 
schedule 以 TASK_INTERRUPTIBLE 状态 睡眠 在 等 待 队 列 cwq->more_work 中， 直到 驱动 
程序 向 cwq->worklist 上 提交 了 一 个 新 的 节点 并 唤醒 worker thread， 它 醒 来 之 后 将 调用 
run_workqueue 来 处 理 cwq->worklist 上 的 工作 节点 ; 


<kernel/workqueue. C> 


9 
本 


static void run_workqueue(struct cpu - U-workqueus struct *cwq) 
{ 
spin_lock_irq(&cwq->lock); 
while (!list_empty(&cwq->worklist)) { 
struct work struct *work = list entry(cwq-worklist.next, 
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struct work_struct, entry); 
work func t f= work->fune; 
cwq-»current work = work; 
list del init(cwq-^worklist.next); 


spin unlock irq(&cwq--lock); 


work clear pending(work); 
f( work); 

spin lock irq(&cwq--lock); 
cwq-»current work = NULL; 


j 
spin unlock irg(&cwq--lock); 
j 


函数 在 while 循环 中 遍历 cwq->worklist 链表 ， 对 于 其 中 的 每 个 工作 节点 work, HEM 
cwq->worklist 链表 删除 ， 然 后 调用 工作 节点 上 的 延迟 函数 人 work)， 传 递 给 函数 的 参数 是 延 
迟 函 数 所 在 工作 节点 的 指针 works M run workqueue 的 代码 可 以 看 出 ， 一 个 工作 节点 被 处 
理 完 之 后 ， 将 不 会 再 出 现在 工作 队列 的 cwq->worklist HAT, BRIER AIRE. 


图 数 中 的 work_ clear. pending 用 来 清除 work->data 的 WORK STRUCT. PENDING 位 (位 0)， 
这 里 内 核 把 work->data 的 低 2 位 用 于 记录 work 的 状态 信息 z， 当 驱动 程序 调用 queue work 
向 工作 队列 提交 节点 work 时 , queue_work 会 把 work->data 的 WORK_STRUCT_PENDING 
位 置 1, 这 是 为 了 防止 驱动 程序 将 一 个 尚未 被 处 理 的 工作 节点 再 次 向 cwq->worklist 上 提交 。 


6.2.4 destroy workqueue 


destroy workqueue 执行 与 create singlethread workqueue/create workqueue 相反 的 任务 ， 当 
驱动 程序 不 再 需要 使 用 后 者 创建 的 工作 队列 时 【比如 驱动 程序 所 在 的 模块 要 从 系统 中 移 走 
或 者 关闭 设备 等 )， 需 要 调用 destroy workqueue 来 做 工作 队列 的 清理 善后 工作 ， 比 如 释放 
create workqueue 分 配 使 用 的 一 些 系统 资源 如 内 存 等 ， 还 有 worker thread 线程 也 应 该 被 安 
全 地 终结 。 


<kemel/workqueue.c> 
void destroy workqueue(struct workqueue struct *wq) 
1 
const struct cpumask *cpu map = wq cpu map(wq); 


int cpu; 


epu maps update begin(); 


2 此 处 内 核 利 用 了 struct work. struct 中 data 成 员 的 低 2 位 ， 所 以 驱动 程序 在 利用 data 向 延迟 函数 传递 信息 时 ， 低 2 位 应 
该 是 0。 这 里 暗含 的 意思 是 驱动 程序 只 应 该 把 data 当做 指针 类 型 来 使 用 。 
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spin lock(&workqueue lock); 
list. del(&wq--list); 
spin unlock(&workqueue lock); 


for each cpu(cpu, cpu. map) 
cleanup workqueue thread(per cpu ptr(wq-»cpu wq, cpu)); 
cpu maps update done(); 


free percpu(wq-7cpu wq); 
kfree(wq); 
} 


除了 将 wq 从 workqueues 中 移 走 及 释放 工作 队列 管理 结构 等 对 象 所 占用 的 内 存 外 ， 主 要 的 工 
作 是 调用 cleanup workqueue thread 来 完全 地 终结 worker thread， 因 为 destroy workqueue 被 
调用 的 时 候 ，worker thread 很 有 可 能 正在 处 理 worklist 中 余下 的 工作 节点 ， 因 此 函数 要 小 心 
处 理 ， 避 免 发 生 不 必要 的 麻烦 。 这 里 将 cleanup workqueue thread 稍 作 改 写 以 突出 其 主线 ; 


<kernel/workqueue. C> 


static void cleanup_workqueue_thread(struct cpu_workqueue_struct *cwq) 


{ 


if (cwq->thread == NULL) 


return; 
flush_cpu_workqueue(cwq); 


kthread_stop(cwq->thread); 
cwg->thread = NULL; 
} 


函数 的 主要 作用 是 通过 调用 kthread stop 函数 来 让 worker thread 所 在 的 进程 终止 ， 因 为 一 
旦 进程 的 执行 函数 worker thread 结束 ， 进 程 就 将 调用 do exit 而 终结 ， 所 以 kthread stop 
让 worker thread 结束 的 原理 就 是 设置 should stop=1， 前 面 在 讨论 worker thread 时 已 看 到 
过 should stop 的 这 一 用 法 。 


但 是 终止 worker thread 所 在 进程 的 一 个 前 提 条 件 是 要 确保 所 有 提交 到 cwq->worklist 中 的 
工作 节点 都 已 处 理 完毕 ， 这 是 由 flush cpu workqueue 函数 完成 的 : 


<kernel/workqueue.c> 


nian LI III 


static int flush. cpu _workqueue(struct cpu_workqueue struct *cwq) 


i 


rT 


int active = 0; 
struct wq_barrier barr; 


WARN ON(cwq--thread == current); 


第 6 章 延迟 操作 223 


spin_lock_irq(&cwq->lock); 

if (!list_empty(&cwq->worklist) | c wq->current_work != NULL) { 
insert wq barrier(cwq, &ban', &cwq->worklist); 
active — 1; 

} 

spin_unlock_irq(&cwq->lock); 


if (active) { 
wait_for_completion(&bar.done); 
destroy work on stack(&barr.work); 


} 


return active; 


} 


flush cpu workqueue 确 你 cwq->worklist 上 所 有 工作 节点 都 已 处 理 完 毕 的 设计 思想 是 利用 完 
成 接口 completion: 如 果 cwq->worklist 不 为 空 或 者 cwq-»current work 不 为 室 ， 说 明 
cwq worklist 上 还 有 工作 节点 或 者 worker thread 正在 处 理 一 个 工作 节点 , 则 向 cwq->worklist 
上 提交 一 个 新 的 工作 节点 ， 这 里 不 妨 称 之 为 中 止 节点 。 当 中 止 节 点 上 的 延迟 函数 被 执行 时 ， 
它 将 调用 complete 函数 通知 flush_cpu_workqueue， 而 后 者 在 提交 完 中 止 节点 之 后 将 睡眠 等 
待 在 wait for completion 函数 上 ， 直 到 之 前 提交 的 中 止 节点 上 的 延迟 函数 执行 结束 ， 如 此 
可 确保 所 有 中 止 节点 前 的 工作 节点 都 会 被 处 理 完 毕 。 


从 函数 的 实现 代码 可 以 看 到 , 虽然 在 insert. wq. barrier 函数 握 交 了 中 止 节点 之 后 , 其 他 部 分 
的 代码 依然 可 以 向 cwq->worklist 提交 新 的 工作 节点 , 但 是 内 核 无 法 保证 这 些 工 作 节 点 上 的 
延迟 消 数 有 机 会 执行 。 函数 中 的 WARN_ON(cwq->thread == current) 意 味 着 驱动 程序 不 应 该 
在 提交 的 工作 节点 延迟 函数 中 调用 flush_cpu_workqueue. 


flush_cpu_workqueue 的 操作 范围 只 限于 单个 CPU。 对 于 非 singlethread 工作 队列 ， 因 为 每 
个 CPU 上 都 有 一 个 工作 队列 和 worker thread， 要 确保 系统 中 所 有 CPU 上 的 工作 队列 中 的 
工作 市 点 都 被 处 理 完 ， 应 该 使 用 flush workqueue 函数 ; 


a a lee ee De Bb OC 


void flush workqueue(struct workqueue struct *wq) 


{ 


for_each_cpu(cpu, cpu_map) 
flush_cpu_workqueue(per_cpu_ptr(wq->cpu_wq, cpu)); 
} 


不 管 是 flush cpu workqueue 还 是 flush workqueue， 都 是 对 工作 队列 worklist 上 所 有 的 工作 
WAITERE: 函数 返回 后 ， 可 以 确保 函数 调用 前 提交 的 所 有 工作 节点 都 已 处 理 完毕 。 与 
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直到 该 节点 处 理 完毕 函数 才 返 回 ， 就 可 以 使 用 flush work 函数 ， 其 原型 如 下 : 


int flush_work(struct work struct *work); 


参数 work 就 是 调用 者 要 等 待 在 其 上 的 工作 节点 ， 如 果 读 函数 调用 时 work 已 处 理 完 毕 ， 那 
么 围 数 返回 0。 


6.2.5 提交 工作 节点 queue work 


前 面 儿 节 描 述 了 工作 队列 在 内 核 内 部 的 实现 机 制 ， 本 节 开 始 讨论 驱动 程序 如 何 通 过 向 工作 
队列 提交 节操 的 方式 来 执行 延迟 操作 。 


设备 驱动 程序 将 要 延迟 的 操作 打包 进 一 个 struct work struct 对 和 象 ， 也 就 是 所 谓 的 工作 节点 ， 
然后 通过 queue work 函数 来 向 工作 队列 提交 该 节点 。 


u <kernel/workqueue. c 


int queue work(struct workqueue_ struct *wa, : struct t work _ struct * work) 


{ 


int ret; 


ret = queue work on(get cpu(), wq, work); 
put cpu(); 


return ret; 
} 


在 之 前 的 讨论 中 ， 驱 动 程序 可 以 调用 create_singlethread_workqueue 和 create_workqueue ij 
数 来 让 内 核 生成 属于 自己 的 工作 队列 ， 两 者 的 区 别 是 :create_singlethread_workqueue 只 在 
系统 中 的 第 一 个 CPU (singlethread_cpu) 上 创建 工作 队列 和 工人 线程 ， 而 create workqueue 
函数 会 在 系统 中 的 每 个 CPU 上 都 创建 工作 队列 和 工人 线程 3。 在 用 queue. work 向 工作 队列 
提交 工作 节点 时 ， 如 果 工 作 队 列 是 singlethread 类 型 的 ， 因 为 此 时 只 有 一 个 worklist， 所 以 
queue work 没 得 选择 ， 工 作 节 点 只 能 提交 到 这 唯一 的 一 个 worklist 上 。 反 之， 如 果 队 列 不 
f= singlethread 类 型 的 ， 奢 么 工作 节点 将 会 提交 到 当前 运行 queue work 的 CPU 所 在 的 
worklist 中 。 


<KernelAworkqueue.C> 


a e o l l l e 


int queue_work_on(int cpu, struct workqueue struct twa, struct work_struct *work) 


{ 


int ret = 0: 
if (!test_and_set_bit(WORK_STRUCT_PENDING, work data bits(work))) { 


3 如 果 是 单 处 理 器 系统 ， 两 者 就 没有 什么 区 别 了 。 
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BUG ON(!list empty(&work->entry)); 
J. queue work(wq per cpu(wq, cpu), work); 
ret — 1; 

} 


return ret; 


} 


函数 首先 检测 work->data 的 WORK STRUCT PENDING 位 有 没有 被 置 1， 置 1 的 话 意味 
着 此 前 该 work 已 被 提交 还 没有 和 处理, 内 核 禁 止 驱 动 程序 在 一 个 工作 节点 还 没 处 理 完 就 再 次 
提交 该 节点 。 此 处 的 检测 也 告诉 驱动 程序 ， 在 构造 工作 节点 对 和 象 work 时 ， 应 该 确保 
work->data 低 2 位 为 0。 如 果 work->data 的 WORK STRUCT PENDING 位 是 0， 那么 就 把 
该 位 置 1 表明 工作 节点 处 于 等 待 处 理 的 状态 ， 然 后 调用 _queue_ work RHET A. 
J queue work 的 原型 为 : 


static void — queue work(struct cpu workqueue struct *cwq, struct work struct *work); 


第 一 个 参数 是 CPU 工作 队列 管理 结构 ， 第 二 个 参数 是 待 提交 的 节点 指针 。queue_work_on 
在 调用 _queue_work 时 传递 的 第 一 个 参数 是 wq per. cpu(wq, cpu), 为 了 摘 清 向 哪个 cwq 提 
变节 点 ， 不 妨 看 看 wq per cpu 的 实现 : 


<kernel/workqueue.c> 
static struct cpu_workqueue_struct *wq per cpu(struct workqueue struct *wq, int cpu) 
1 
if (unlikely(is wq single threaded(wq))) 
cpu = singlethread cpu; 
return per cpu ptr(wq-»cpu wq, cpu); 
j 


函数 的 实现 很 简单 ， 如 果 是 singlethread 类 型 的 工作 队列 ， 那 么 工作 节点 就 提交 到 第 -- 个 
CPU BY cwq 上 ， 否 则 哪个 CPU 调用 queue_work， 工 作 节 点 就 提交 到 哪个 CPU 的 cwq 上 。 


下 面 继 续 看 ”queue work， 其 内 部 通过 调用 insert work(cwq, work, &cwq-»worklist)3K 5c EX, 
节点 的 提交 。insert work 的 定义 如 下 : 


<kernel/workqueue.c> 
static void insert work(struct cpu workqueue struct *cwq, 
struct work struct *work, struct list head *head) 

{ 

set wq data(work, cwq); 

smp wmb(); 

list add. tail(&work--^entry, head); 

wake up(&cwgq--more work); 


} 
国 数 的 主体 和 我 们 的 预期 完全 一 样 : 将 工作 节点 加 到 cwa->worklist 链表 的 尾部 ， 然 后 调用 
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wake up 唤醒 在 等 待 队列 cwq->more_work 上 睡眠 的 worker thread, 2058 worker thread iF: 
在 运行 ， 那 么 wake_up 就 什么 也 不 做 。 

在 把 驱动 程序 向 工作 队列 提交 节点 的 queue_work 函数 搞 清楚 之 后 , 再 回 过 头 来 看 看 实际 的 
驱动 程序 代码 中 如 何 动态 初始 化 一 个 工作 队列 节点 work. struct 的 对 象 。 内 核 为 此 提供 了 两 
ME PREPARE WORK 和 TNIT WORK， 展 开 后 如 下 : 


<include/linux/workqueue. h> 


ee ee ee ee ee | 


#define PREPARE -WORK( work, ‘anys A 
do 1 A 
(_ work)->fune = (func), if 
! while (0) 
#define INIT WORK( work, func) \ 
do | \ 
(_work)->data = (atomic long t) ATOMIC_LONG_INIT(0); \ 
INIT LIST HEAD(&(_work)->entry); \ 
PREPARE WORK(( work), ( func); — \ 
} while (0) 


INIT WORK 初始 化 struct work struct 中 的 每 个 成 员 ， 而 PREPARE. WORK 只 是 重新 设置 
struct work struct 中 的 func 指针。 在 实际 的 驱动 程序 中 ， 使 用 INIT WORK 的 机 会 要 比 
PREPARE WORK 大 得 多 。 


除了 这 种 动态 初始 化 ， 内 核 还 提供 了 另外 一 个 宏 DECLARE_WORK,， 可 以 让 驱动 程序 静态 
定义 一 个 struct work, struct 对象 同时 初始 化 : 


«include/linux/workqueue.h» 

#define DECLARE WORK(n, f) struct work. st struct n = 人 mE 
.data = WORK DATA STATIC INIT(), \ 
sentry = ( &(n).entry, &(n).entry }, A 
func = (f), \ 
__WORK_INIT_LOCKDEP_MAP(#n, &(n)) A 
} 


Bk queue work 之 外 ， 内 核 还 提供 了 另外 一 个 提 下 节点 的 函数 queue delayed work: 


<kernel/workqueue.c> 


set om om o o o omm m oA o om oo omo momo ooo oom omo m os — Pee LOL Rb ee eee ee eee eee ke ee 


int queue delayed work(struct workqueue struct *wq, 
struct delayed work *dwork, unsigned long delay) 
{ 
if (delay = 0) 
return queue work(wq, &dwork->work); 


return queue delayed work on(-l, wq, dwork, delay); 
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} 


相对 于 queue_work, queue_delayed_work 多 了 个 参数 delay， 不 过 在 delay=0 的 情况 下 ， 对 
queue delayed work 3325 X, f queue work, 上 面 的 代码 很 明显 地 展示 了 这 一 点 。 如 果 delay 
不 等 于 0， 那 么 它 代 表 一 个 延迟 的 时 间 ， 换 句 话说 调用 queue delayed work 之 后 ， 工 作 节 
点 work 需要 等 到 delay 指定 的 时 间 过 后 才 会 被 真正 提交 到 队列 wq E. WP ERRAI 
作 在 queue delayed work on HAPTER: 


<kernel/workqueue.c> 
int queue_delayed_work_on(int cpu, struct workqueue_struct *wq, 
struct delayed work *dwork, unsigned long delay) 
{ 
int ret = 0; 
struct timer list *timer = &dwork->timer; 
struct work struct *work = &dwork->work; 


if(!test and set bit( WORK STRUCT PENDING, work data bits(work))) { 
timer stats timer set start info(&dwork-^timer); 
set wq data(work, wq per cpu(wg, raw smp processor id())); 
timer->expires = jiffies + delay; 
timer->data = (unsigned long)dwork; 
timer->function = delayed_work_timer_fn; 


if (unlikely(cpu >= 0)) 

add timer on(timer, cpu); 
else 

add_timer(timer); 


PRN Bet BAB MO A. AHERN oe timer 来 实现 延迟 提交 的 工作 , timer->expires = jiffies 
+ delay， 这 样 当 delay 时 间 到 期 后 ，timer->function = delayed work timer fn 将 被 调用 ， 
delayed work timer fn-&if queue delayed work on 要 提 变 的 节点 提 变 到 工作 队列 中 .所 以 ， 
驱动 程序 如 果 要 使 用 queue_delayed_work， 要 先生 成 一 个 struct delayed work 对 象 。struct 
delayed work 5E Y. JJ: 


<include/linux/workqueue.h> 


eS ed 


struct delayed work { 
struct work_struct work; 
struct timer_list timer; 


CC 


延迟 函数 所 在 的 工作 节点 在 struct delayed work 结构 体 的 work 成 员 中 ， 其 另 一 个 成 员 是 个 
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timer 对 和 象 ,用 来 实现 时 间 上 的 延迟 操作 ,queue_delayed_ work 中 的 dalay 参数 将 用 来 给 timer 
中 的 延 时 成 员 赋 值 。 


至 此 ， 我 们 已 经 完整 地 讨论 了 工作 队列 整个 框架 的 实现 机 制 ， 包 括 内 核 部 分 如 何 建立 队列 
和 工人 线程 ， 以 及 驱动 程序 部 分 如 何 利用 内 核 提 供 的 接口 同 工 作 队列 中 提交 工作 市 点 实现 
延迟 的 操作 。 为 了 加 深 读 者 对 这 部 分 内 容 的 理解 ， 下 面 用 一 个 使 用 了 工作 队列 执行 延迟 操 
作 的 代码 片段 作为 具体 的 范例 : 


/定义 全 局 性 的 struct workqueue struct 指针 demo dev wq 
static struct workqueue struct * demo dev wq; 


IH de EE CAE E. SC ie HE PAB struct work struct 结构 者 内退 在 这 个 数据 结构 中 
struct demo device| 


struct work struct work; 


3 


static struct demo device *demo dev; 

HEX SEXE GS RE BH - 

void demo work func(struct work struct *work) 
{ 

} 


1/ 驱 动 程序 模块 初始 化 代码 调用 create singlethread workqueue 创建 工作 队列 
static int _init demo dev init (void) 


i 
demo dev = kzalloc(sizeof * demo. dev, GFP KERNEL); 
demo dev wq = create singlethread workqueue("demo dev workqueue"); 
INIT WORK(&demo dev-»work, demo work func); 

} 

1/ 模 块 退 出 函数 


static void demo dev exit(void} 


{ 


flush workqueue(demo dev wq); 
destroy workqueue(demo dev wq) 


} 
/中 断 处 理 函 数 
irgreturn_t demo isr(int irg, void * dev id) 


{ 


第 6 章 延迟 操作 229 


queue work(demo dev wq, &demo_dev-> work); 


} 


6.2.6 ”内 核 创 建 的 工作 队列 


Linux 系统 在 初始 化 阶段 的 init workqueues 函数 中 通过 调用 create workqueue 创建 了 一 个 
名 为 events 的 工作 队列 ; 


«kernel/workqueue.c- 


"Lcx 


static struct workqueue struct *keventd wq — read mostly; 
void init init workqueues(void) 


{ 
keventd wq = create_workqueue("events"); 


} 


前 面 已 经 仔细 讨论 了 create workqueue Fi, ABER ROE A LIER P E; SUR 
序 自己 调用 create workqueue 函数 创建 的 在 本 质 上 没有 任何 不 同 。 设 备 驱动 程序 就 算 不 创 
建 自 己 的 工作 队列 ， 也 可 以 利用 内 核 创 建 的 工作 队列 来 实现 延迟 操作 ， 在 提交 工作 节点 时 
只 需要 调用 queue work(keventd wq, work) 即 可 ,不 过 内 核 已 经 用 为 一 个 函数 schedule work 
包装 了 queue work(keventd wq, work) 调 用 : 


<kernel/workqueue.c> 


int schedule work(struct work struct *work) 


{ 
return queue work(keventd wq, work); 


} 


可 以 看 到 ， 驱 动 程序 如 果 使 用 内 核 创 建 的 工作 队列 ， 在 提交 工作 节点 时 只 需 调 用 
schedule work FS np UT. 


对 应 queue delayed work, XIF Pf gl s£ ÉF) T fE BA Sil ru zi. ^ SEXS SES EE CL AE X EP 


schedule delayed work. 


使 用 内 核 提供 的 工作 队列 的 好 处 是 ， 驱 动 程序 无 须 创 建 自 己 的 工作 队列 就 可 以 提交 节点 来 
实现 延迟 操作 。 但 是 不 好 的 地 方 也 很 明显 : 我 们 正在 与 系统 中 其 他 模块 共享 一 个 工作 队列 
以 及 该 队列 上 的 worker thread， 所 以 队列 上 的 工作 节点 的 多 少 我 们 无 法 预期 ， 意 味 着 我 们 
无 法 确定 在 提交 一 个 工作 节点 之 后 ， 需 要 多 长 时 间 才 有 机 会 被 调度 执行 。 同 时 ， 我 们 也 应 
该 注意 避免 在 提交 的 延迟 函数 中 执行 很 耗 时 的 任务 影 啊 到 他 人 。 所 以 对 使 用 内 核 创 建 的 工 
作 队 列 总 绪 起 来 就 是 : 虽然 少 了 创建 队列 销毁 队列 这 些 麻烦 事 ， 但 是 使 用 起 来 的 灵活 性 就 
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FRET. 这 里 没有 一 成 不 变 的 规则 , 设备 驱动 程序 需要 根据 实际 情况 做 出 适合 目 己 的 选择 。 


6.3 本章 小 \ 结 


本 章 深入 讨论 了 设备 驱动 程序 中 经 常 使 用 的 两 种 延迟 操作 的 实现 机 制 ， 分 别 是 tasklet 和 


workqueue. 


tasklet 的 实现 基于 sofürq 机 制 ， 内 核 在 初始 化 期 间 就 初 妈 化 了 HI SOFTIRQ 和 
TASKLET SOFTIRQ 两 个 softirq 所 对 应 的 action PAL: tasklet_hi action 和 tasklet action. 


驱动 程序 在 可 以 使 用 tasklet 机 制 实 现 延 迟 操 作 前 ， 需 要 定义 一 个 tasklet 对 象 ， 将 要 延迟 的 
函数 封装 到 该 对 象 中 ， 之 后 需要 调用 tasklet schedule 函数 向 系统 提交 该 对 象 。 中 断 处 理 的 
SOFTIRQ 部 分 发 现 有 等 待 的 softirq 需要 处 理 时 ， 就 去 处 理 被 驱动 程序 提交 的 tasklet WR, 
在 那里 ， 被 打包 进 tasklet 对 象 的 驱动 程序 中 的 实际 延迟 函数 将 被 调用 。 当 一 个 tasklet 对 象 
在 SOFTIRQ 部 分 处 理 完 之 后 , 除非 再 次 提 变 , 否则 将 不 再 会 被 执行 , 由 此 可 见 , 通过 tasklet 
实现 的 延迟 操作 ， 是 运行 在 中 断 处 理 的 上 下 文 环境 中 ， 因 此 它 不 应 该 引入 睡眠 。tasklet 是 
严格 串 行 化 的 : 在 任 一 时 刻 ， 同 一 tasklet 只 能 有 一 个 实例 在 运行 ， 即 使 是 多 处 理 器 系统 也 
是 如 此 。tasklet 的 另 一 个 特性 是 ， 哪 个 处 理 器 调用 tasklet schedule 提交 的 tasklet， 只 能 在 
该 处 理 器 上 运行 。 


相对 于 tasklet， 工 作 队 列 的 延迟 国 数 是 在 一 个 独立 的 进程 环境 下 运行 的 。 系 统 中 可 能 有 两 
种 形式 的 工作 队列 ， singlethread 的 和 非 singlethread 的 。 对 于 允 处 理 器 系统 而 言 ， 前 者 只 在 
系统 中 的 第 一 个 CPU 上 产生 工作 队列 和 工人 线程 , 而 后 者 则 为 系统 中 的 每 个 处 理 器 都 产生 
一 个 工作 队列 和 工人 线程 。 内 核 在 初始 化 阶段 创建 了 一 个 非 singlethread 的 工作 队列 ， 驱 动 
程序 可 以 使 用 该 队列 ， 也 可 以 调用 create workqueue 或 者 create singlethread workqueue fi! 
建 属于 自己 的 工作 队列 。 


为 了 实现 延迟 操作 ， 张 动 程序 需要 生成 一 个 类 型 为 struct work struct 的 工作 队列 对 章 ， 将 
要 延迟 执行 的 函数 打包 到 该 对 象 中 ， 然 后 通过 queue work 函数 向 工作 队列 提交 该 节点 。 同 
tasklet 对 象 一 样 ， 当 work 对 象 被 处 理 完毕 后 除非 被 再 次 提 变 ， 否 则 将 不 再 有 热 行 的 机 会 。 
与 tasklet 不 同 的 是 ， 基 于 工作 队列 的 延迟 操作 是 运行 在 进程 的 上 下 文中 ， 所 以 允许 睡眠 。 


$x 
设备 文件 的 高 级 操作 


在 “字符 设备 驱动 程序 ”一 章 中 ,讨论 了 Linux 系统 下 字符 设备 驱动 程序 框架 的 内 核 机 制 ， 
包括 设备 号 的 分 配 、 设 备 对 象 的 注册 ， 以 及 设备 文件 节点 的 生成 和 文件 的 打开 操作 等 ， 从 
本 章 开始 ， 将 在 此 基础 上 讨论 针对 设备 廊 件 的 一 些 高 级 廊 件 操作 ， 包 插 驱 动 程序 最 常用 的 
ioctl, 阻塞 型 I/O. poll. 以 及 异步 通知 机 制 等 , 基本 上 将 围绕 设备 驱动 程序 需要 实现 的 struct 
file operations 对 彰 中 所 定义 的 一 些 函 数 来 展开 ,重点 集中 在 ioetl 和 字符 设备 的 TO 模型 上 ， 
希望 读者 阅读 完 本 章 后 能 进一步 认识 和 理解 字符 设备 驱动 程序 所 要 完成 的 各 种 操作 。 


7.1 ioctl 文件 操作 


设备 文件 的 ioctl 操作 常用 来 对 设备 的 行为 进行 某 种 控制 ,典型 的 用 法 比如 对 一 个 串口 设备 ， 
可 以 通过 ioctl 配置 其 波 特 率 和 流 控 方 法 等 .所 以 ioctl 一 般 用 来 在 用 户 空间 的 应 用 程序 和 豫 
动 程序 模块 之 间 传 递 控制 参数 ， 而 很 少 用 于 大 数据 量 的 传递 。 


7.1.1 ioctl 的 系统 调用 


A EBT ioctl 的 系统 调用 流程 , 使 读者 了 解 用 户 空间 程序 的 ioctl 如 何 调用 到 设备 驱动 
程序 中 实现 的 ioctl. 
在 用 户 空 间 ，ioctl 函数 的 原型 为 ， 


«sys/ioctl.h- 


一 


int ioct)(int fd, int request, ...); 


而 对 于 设备 驱动 程序 而 言 ， 所 要 实现 的 ioctl 函数 的 原型 有 两 个 : 


1 


-= masc 


一 一 


struct file operations 


long (*unlocked ioctl) (struct file *, unsigned int, unsigned long); 
int (*ioctl) (struct inode *, struct file *, unsigned int, unsigned long); 
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h 
驱动 程序 应 该 实现 其 中 的 unlocked. ioctl, ioctl 在 Linux 内 核 中 属于 比较 陈旧 的 代码 ， 之 所 
以 还 存在 ， 是 考虑 到 一 些 老 的 驱动 只 实现 了 ioctl， 调 整 这 些 代码 的 工作 量 非 常 庞大 。 在 后 
续 对 ioctl 系统 调用 的 讨论 中 ， 会 看 到 这 两 者 之 间 的 区 别 。 本 书 为 了 手 述 的 方便 ， 将 驱动 程 
序 中 实现 的 这 些 函 数 原型 统称 为 ioctl 函数 。 


当 用 户 空间 程序 调用 ioctl 函数 时 , 系统 会 经 过 sys_ioctl 进入 到 内 核 空 间 。 系 统 调用 sys_ioctl 
的 定义 为 : 


<fs/ioctl.c> 
SYSCALL DEFINE3(ioctl, unsigned int, fd, unsigned int, cmd, unsigned long, arg) 
{ 

struct file *filp; 

int error = -EBADF,; 

int fput_needed; 


filp = fget light(fd, &fput needed); 
if (!filp) 
goto out; 


error — security file ioctl(filp, cmd, arg); 
if (error) 
goto out fput; 


error = do vfs ioctl(filp, fd, cmd, arg); 
out fput: 

fput light(filp, fput needed); 
out: 

return error; 


) 


从 图 2-9 “fd 与 filp 的 关联 ”可 以 看 到 ， 当 用 户 空间 打开 一 个 设备 文件 时 ， 内 核 将 为 之 分 配 
一 个 文件 描述 符 但 ， 同 时 生成 一 个 struct file 对 象 filp, fd 与 filp 通过 当前 进程 的 files 管理 
的 文件 描述 符 表 关联 起 来 ， 这 意味 着 当 接 下 来 在 刚 打 开 的 文件 上 执行 其 他 操作 时 ， 比 如 这 
里 的 ioctl， 系 统 会 把 打开 文件 时 获得 的 文件 描述 符 fd 作为 参数 传递 给 ioctl 函数 。 在 ioctl 
的 系统 调用 函数 sys iocth 中 ， 第 一 个 参数 就 是 刚 打 开 文 件 的 描述 符 但， 因此 可 以 推测 
sys ioctl 将 会 用 fd 作为 进程 管理 的 文件 描述 符 表 的 索引 ， 继 而 得 到 fd 所 对 应 的 struct file 
对 象 的 指针 filp， 这 个 filp 对 银 在 之 前 打开 文件 的 操作 中 已 被 创建 并 初始 化 ,其 中 最 重要 的 
初始 化 是 把 设备 对 象 cdev 中 的 ops 指针 赋 给 了 filp->f op， 因此 通过 filp->f op 将 调用 到 驱 
动 程序 提供 的 文件 操作 函数 。 


有 了 这 种 总 体 的 脉络 把 握 ， 再 看 上 面 的 sys ioctl 函数 的 具体 实现 来 验证 刚才 的 推测 .。 没 错 ， 
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函数 中 的 第 一 个 调用 fget_light 就 是 通过 fd 获得 struct file 对 象 的 指针 filp。 函 数 中 另 一 处 
关键 的 调用 来 自 do_vfs_ioctl， 此 处 需要 仔细 考察 一 下 该 函数 的 实现 代码 来 获得 更 多 关于 
ioctl 的 认识 ， 包 括 用 户 空间 ioctl 函数 中 各 种 参数 的 使 用 方法 等 。do_vfs ioctl 的 定义 是 : 


<fs/ioctl.c> 


TT 天 


intdo vfs ioctl(struct file *filp, unsigned int fd, unsigned int cmd, unsigned long arg) 
{ 

int error = 0; 

int  user*argp = (int user *)arg; 


switch (cmd) { 

case FIOCLEX: 
set close on exec(fd, 1); 
break; 


case FIONCLEX: 
set close on exec(fd, 0); 
break; 


case FIONBIO: 
error = ioctl_fionbio(filp, argp); 
break; 


case FIOASYNC: 
error = joctl. fioasync(fd, filp, argp); 
break; 


case FIOQSIZE: 
if (S_ISDIR(filp->f_path.dentry->d_inode->i_mode) || 
S_ISREG(filp->f_path.dentry->d_inode->i_mode) || 
S_ISLNK(filp->f_path.dentry->d_inode->i_mode)) { 
loff t res = 
inode_get_bytes(filp->f_path.dentry->d_inode); 
error = copy to user((loff t — user *)arg, &res, 
sizeof(res)) ? -EFAULT : 0; 
} else 
error = -ENOTTY; 
break; 


case FIFREEZE: 
error = 1octl_fsfreeze(filp); 
break; 


case FITHAW: 
error = ijoctl_fsthaw/(filp); 
break: 
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case FS IOC FIEMAP: 
return ioctl_fiemap(filp, arg); 


case FIGETBSZ: 

{ 
struct inode *inode = filp->f_path.dentry->d_inode; 
int user*p=(int user *Jarg; 
return put_user(inode->i_sb->s_blocksize, p); 


} 


default: 
if(S_ISREG(filp->f_path.dentry->d_inode->i_mode)) 
error = file ioctl(filp, cmd, arg); 
else 
error = vfs ioctl(filp, cmd, arg); 
break; 
} 


return error; 
j 


从 上 面 的 函数 实现 中 ， 可 以 看 到 用 户 空间 ioctl 函数 原型 中 第 二 和 第 三 个 参数 的 用 法 ， 它 们 
分 别 对 应 do vfs ioctl 中 的 unsigned int cmd 和 unsigned long arg。 这 里 只 是 想 让 读者 知道 ， 
通过 ioctl 的 不 同 cmd 参数 ， 应 用 程序 可 以 做 很 多 事情 ， 并 不 打算 讲解 每 个 cmd 的 具体 用 
法 。 还 是 回 到 本 章 的 主题 “字符 设备 的 高 级 操作 ”"， 有 过 用 户 空间 对 字符 设备 文件 进行 ioctl 
操作 经 验 的 读者 应 该 知道 ， 这 种 情况 下 调用 流程 将 落 入 do vfs ioctl 中 default 分 支 下 的 
vfs_ioctl 函数 。 虽 然 已 经 可 以 猜 出 后 续 的 调用 就 是 filp->f op->ioctl， 但 是 笔者 还 是 打算 把 
vfs_ioctl 的 代码 实现 摘录 于 下 ， 使 读者 获得 更 加 直观 的 印象 ; 


<fs/ioctl.c> 

static long vfs ioctl(struct file *filp, unsigned int cmd, 
unsigned long arg) 

{ 


int error = -ENOTTY; 


if (!filp->f_op) 
goto out; 


if (filp->f_op->unlocked_ioctl) | 
error = filp->f_op->unlocked_ioctl(filp, cmd, arg); 
if (error — -ENOIOCTLCMD) 
error = -EINVAL; 
goto out; 
} else if (filp->f_op->1octl) { 
lock kernel(); 
error = filp->f_op->ioctl(filp->f_path.dentry->d_inode, 
filp, cmd, arg); 
unlock kernel(); 
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函数 没有 需要 太 多 解释 的 地 方 , 如 果 读 者 之 前 认真 阅读 了 2.7 节 “ 字 符 设备 文件 的 打开 操作 ”， 
那么 此 处 filp->f op 与 设备 驱动 程序 中 实现 的 struct file operations 对 象 之 间 的 关联 就 会 非常 
清晰 。 所 以 在 你 的 设备 驱动 程序 模块 中 要 么 实现 了 file operations 中 的 unlocked ioctl, BA 
是 实现 了 ioctl, 它们 都 将 在 vfs ioctl 函数 中 的 if-else if… 框 架 中 被 检验 并 被 调用 ,来 自用 户 
空间 的 cmd 和 arg 参数 将 原样 不 动 地 传递 给 它们 , 驱动 程序 模块 中 实现 的 ioctl 显然 需要 通过 
某 些 手段 来 获得 用 户 空间 的 参数 ， 在 接 下 来 的 讨论 中 将 看 到 这 一 点 。 


关于 这 里 的 unlocked ioctl 和 ioctl 调用 ， 前 面 已 经 提 过 ioctl 属于 老 的 代码 ， 在 vf ioctl ER 
数 的 实现 中 可 以 看 到 ， 内 核 在 调用 ioctl 时 ， 使 用 了 lock kernel 和 unlock kernel 作为 互 斥 
的 手段 ,lock_kernel 和 unlock kernel 是 一 种 粗 粒 度 的 所谓 大 内 核 锁 BKL(Big Kernel Lock), 
这 种 全 局 范围 内 使 用 的 锁 相对 于 现代 的 细 粒 度 的 锁 机 制 而 言 ， 很 明显 会 降低 系统 的 性 能 ， 
所 以 虽然 大 内 核 锁 依然 存在 于 2.6 版 本 的 内 核 中 ， 但 应 该 避免 使 用 。 现 代 的 设备 驱动 程序 
应 该 使 用 unlocked_ioctl， 它 们 已 经 脱离 了 大 内 核 锁 的 保护 ， 因 此 驱动 程序 在 实现 
unlocked_ioctl 函数 时 ， 应 该 使 用 自己 的 互 斥 锁 机 制 。 关 于 unlocked ioctl 和 ioctl 的 更 多 讨 
论 可 以 参考 http;//Iwn.net/Articles/119652/. 


至 此 , 我 们 已 经 明白 了 用 户 空 间 的 ioctl 函数 的 调用 最 终 是 如 何 传递 到 驱动 程序 模块 实现 的 
文件 操作 上 的 ， 下 面 开始 讨论 ioctl 中 跟 参 数 相关 的 问题 。 


7.1.2 ioctl 的 命令 编码 


前 面 已 经 提 到 ，ioctl 主要 用 来 在 用 户 空间 程序 和 设备 驱动 模块 之 间 传 递 控 制 信息 ， 这 个 控 
制 信息 以 cmd 和 arg 的 形式 存在 ， 因 此 需要 在 用 户 空 间 和 内 核 空间 建立 一 套 规则 来 构造 和 
解析 cmd 参数 的 组 成 , 这 样 做 的 目的 是 确保 任何 一 个 遵循 这 些 规 则 编码 出 来 的 cmd 在 系统 
范围 内 具有 唯一 性 : 如 果 有 人 无 意 间 使 用 了 某 一 cmd 编码 来 对 设备 进行 ioctl 操作 ， 驱 动 程 
序 应 该 能 识别 出 这 一 无 意识 的 错误 并 返回 相应 的 信息 。 内 核 为 此 定义 了 一 套 完整 的 宏 ， 设 
备 驱 动 程序 应 该 使 用 这 些 宏 来 定义 和 解析 各 目 使 用 的 cmd 参数 。 


为 构造 ioctl 的 cmd 参数 , 内 核 使 用 了 一 个 32 位 无 符号 整数 并 将 其 分 成 四 个 部 分 , 如 图 7-1 
所 示 : 





图 7-1 ioctl cmd 参数 构成 
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NR 
为 功能 号 ， 长 度 为 8 位 (_IOC NRBITS). 
TYPE | 


为 一 ASCII 字符 ,假定 对 每 个 驱动 程序 而 言 都 是 唯一 的 ,长度 是 8 位 (_IOC_TYPEBITS )。 
实际 的 宏 定 义 中 国 常常 含有 “MAGIC” 字 样 ， 所 以 有 时 候 也 被 称 为 魔 数 。 


SIZE 


表示 ioctl 调用 中 arg 参数 的 大 小 ， 该 字段 的 长 度 与 体系 架构 相关 ， 通 常 是 14 位 
(_IOC_SIZEBITS)。 接 下 来 会 看 到 ， 其 实 内 核 在 ioctl 的 调用 中 并 没有 用 到 该 字段 。 


DIR 


表示 cmd 的 类 型 ，read、write 和 read-write， 长 度 是 2 位 。 这 个 字段 用 于 表示 在 ioctl 
调用 过 程 中 用 户 空间 和 内 核 空 间 数据 传输 的 方向 ， 此 处 方向 的 定义 是 从 用 户 空间 的 视角 出 
发 。 内 核 为 该 字段 定义 的 宏 有 : IOC NONE， 表 示 在 ioctl 调用 过 程 中 ， 用 户 空间 和 内 核 
空间 没有 需要 传递 的 参数 ， IOC_WRITE， 表 示 在 ioctl 调用 过 程 中 ， 用 户 空间 需要 向 内 核 
空间 写 入 数据 ，_IOC_READ， 表 示 在 ioctl 调用 过 程 中 ， 用 户 空间 需要 从 内 核 空间 读 取 数 
H; IOC WRITE| IOC READ, mtt ioctl 调用 过 程 中 ， 参 数 数据 在 用 户 空间 和 内 核 空 
[8] ETT XX [8] 3S 


HRA IOCH NR. TYPE. SIZE 和 DIR 构造 cmd 参数 ， 


<include/asm-generic/ioctl.h> 


Fen HB eee eee i Lo Ree Lo - ere * & mo& — Te eR ee rt eH eK Ke ee ee ee ee te ee ere pe ee tee ee ee et eee eee 


#define [OC(dir,type,nr,size) \ 
(((dir) «« IOC DIRSHIFT) | \ 
((type) << IOC TYPESHIFT) | \ 
(nr) << [OC NRSHIFT)|\ 
((size) << IOC SIZESHIFT)) 


在 此 基础 上 ， 内 核 为 方便 代码 的 使 用 ， 定 义 了 如 下 构造 cmd 参数 的 宏 ; 


<include/asm-generic/ioctl.h> 


TT- -rr 


#define IO(type,nr) .IOC( IOC NONE,(type),(nr),0) 

#define IOR(type,anrsize) — IOC( IOC READ,(type),(nr), IOC TYPECHECK(size))) 

#define IOW(type,nrnsize) — IOC( IOC WRITE,(type)(nr)| IOC TYPECHECK(size))) 

"define IOWR(type,nrsize)  IOC( IOC READ| IOC WRITE,(type)(nr,.( IOC TYPECHECK(size))) 


e Ie Foc 


其 中 IOC_TYPECHECK 用 来 对 宏 参 数 size 进行 检测 ， 只 在 定义 了 _ KERNEL ”的 情况 下 
AM, AMR sizeof 运算 符 。 


作为 范例 ， 下 面 给 出 一 个 用 以 上 的 宕 定义 的 ioctl 命令 DEMODEV IOCINT， 该 命令 从 用 户 
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空间 向 内 核 空间 传递 一 个 int 型 参数 : 


#define DEMODEV IOC MAGIC 'm' 
define DEMODEV IOCINT  IOW(DEMODEV IOC MAGIC, 0, int) 


以 上 介绍 的 是 内 核 为 构造 ioctl 命令 cmd 所 定义 的 宏 。 与 此 类 似 ， 内 核 为 解析 出 这 些 cmd 
中 的 各 个 字段 也 定义 了 对 应 的 宏 ， 


«include/asm-generic/ioctl.h» 


#define IOC. DIR(nr) (nr) >> IOC DIRSHIFT) & IOC DIRMASK) - 
#define IOC TYPE(nr) (((n)»» IOC TYPESHIFT) & IOC TYPEMASK) 
#define IOC. NR(nr) (((nr) >> IOC NRSHIFT) & JOC NRMASK) 


#define IOC. SIZE(nr) (((nr) >> IOC SIZESHIFT) & IOC SIZEMASK) 
HOF Ne MBER EDU ET. RASHES. 


至 此 就 介绍 完了 ioctl 的 命令 构造 和 解析 的 方法 。 读 者 在 实际 使 用 这 些 宏 的 时 候 ， 有 一 点 需 
要 注意 ， 前 面 在 讨论 ioctl 系统 调用 的 流程 时 ， 曾 提 到 sys ioctl 最 终 会 调用 do vfs ioctl， 在 - 
那里 函数 会 用 switch…case 语句 对 系统 中 几 个 预定 义 的 cmd 进行 先行 处 理 ， 所 以 设备 驱动 
程序 在 定义 目 己 的 ioctl emd 时 不 应 该 和 这 些 预 定义 的 cmd 发 生 冲 突 , 否则 内 核 将 不 会 调用 
到 驱动 程序 实现 的 ioctl 函数 , 而 且 应 用 程序 因为 误 用 了 系统 预定 义 的 ioctl 命令 而 导致 其 行 
为 的 不 可 预期 。 一 些 常 见 的 预定 义 有 : 


FIOCLEX 


执行 时 关闭 标志 ， 即 File IOctl CLose on EXec， 通 知 内 核 在 调用 进程 执行 一 个 新 程序 
时 ， 比 如 exec(0) 系 统 调用 ， 自 动 关 闭 打 开 的 文件 。 


FIONCLEX 


清除 执行 时 关闭 标志 ， 即 File IOctl Not CLose on EXec, 45 FIOCLEX 标志 相反 ， 清 除 
由 FIOCLEX 命令 设置 的 标志 。 


FIONBIO 


文件 的 ioctl 为 非 阻塞 型 L/O 操作 ， 即 File IOctl Non-Blocking UVO， 这 个 调用 修改 在 
filp->f flags 中 的 O_ NONBLOCK 标志 。 


FIOASYNC 


设置 或 者 复位 文件 的 异步 通知 ， 这 两 个 动作 在 内 核 中 实际 的 执行 者 是 fcntl， 所 以 内 核 
代码 并 不 使 用 该 cmd。 


FIOQSIZE 


获得 一 个 文件 或 者 目录 的 大 小 ， 用 于 设备 文件 时 ， 将 返回 一 个 ENOTTY 错误 。 
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7.1.3 copy_from_user 和 copy_to_user 


copy from user 和 copy. to. user 两 个 函数 用 于 在 用 户 空间 和 内 核 空间 传递 数据 ， 设 备 驱动 
程序 的 ioctl 函数 实现 中 经 常会 用 到 这 两 个 函数 。 先 来 看 copy, from. user 函数 ; 
<include/asm-generic/uaccess.n> — ^ 
static inline long copy from user(void *to, 
const void — user * from, unsigned long n) 
{ 
might_sleep(); 
if (access ok(VERIFY_READ, from, n)) 
retum — copy from user(to, from, n); 
else 
return rn; 


} 


” 先 看 函数 的 三 个 参数 ，*to 是 内 核 空间 的 指针 ，*from 是 用 户 空 间 指针 ，n 表示 从 用 户 空 间 
问 内 核 空 间 找 贝 数据 的 字 节 数 。 关 于 函数 的 返回 值 ， 如 果 成 功 完成 措 贝 动作 ， 返 回 O0. 45 
则 返回 还 没有 完成 拷贝 的 字 态 数 。 


might sleep 在 定义 了 CONFIG_PREEMPT_VOLUNTARY 的 情况 下 会 形成 一 个 显 式 的 抢占 
调度 点 , 换 句 话说 might sleep 可 能 会 自动 放弃 CPU, 关于 这 方面 的 细节 不 是 本 书 要 讨论 的 
主题 ， 总 之 ，copy_from_user 有 可 能 让 当前 进程 进入 睡眠 状态 。 


access ok 用 来 对 用 户 空 间 的 地 址 指针 from 作 某 种 有 效 性 检验 ， 这 个 宏 的 定义 是 体系 架构 
相关 的 ， 在 ARM 平台 上 为 : 


<arch/arm/include/asm/uaccess.h> 


i te es ee i 


#define access ok(type,addr,size)  ( range ok(addr,size) = 0) 


ee E 


可 以 看 到 ，access_ok 中 第 一 个 参数 type 并 没有 被 用 到 ，_range_ok 的 作用 在 于 判断 addr + 
size 之 后 是 否 还 在 进程 的 用 户 空间 范围 之 内 。 


接 下 来 是 核心 函数 _copy_from_user, 该 水 数 的 定义 也 是 体系 架构 相关 的 , 这 里 不 打算 一 步 
一 步 详细 展开 这 个 函数 。 为 了 让 读者 理解 在 驱动 程序 中 使 用 copy from user 的 必要 性 ， 下 
面 给 出 x86 平台 上 该 函数 的 核心 实现 : 


<arch/x86/lib/usercopy_32.c> 


a ee a RO ee 


&define copy user zeroing(to, from, size) \ 
do { \ 
int dO, dl, d2; A 
. asm volatile ( \ 
emp  $7,9e0in" A 


joe 1f\n" A 


} while (0) 


"0: 


"n 1 : 

"2n" 
"section .fixup,\"ax\"\n" 
apa 


T3: 
"6: 


mov] 961, 0n" 
negl %0\n" 
and] $7,%0\n" 
sub! %0,%3\n" 
rep; movsb\n" 
mov] 9/3, on" 
shri $2,%0\n" 
andi $3,953 n" 
align 2,0x90\n" 
rep; movsl\n" 
mov] %3,%o0\n" 
rep; movsb\n" 


addl %3,%0\n" 

jmp 6f\n" 

lea 0(%3,%0,4),%0\n" 
pushi %0\n" 

pushl %%eax\n" 


xar] 969 oeax, So  oeax Wn" 


rep; stosbin" 
popl %o%oeax\n" 
popl %0\n" 
jmp 2b\n" 


" previous\n" 
"section _ex_table,\"a\"\n" 


align 4\n" 

Jong 4b,5b\n" 
Jong 0b,3b\n" 
ong 1b,6b\n" 


" previous" 
:"=&e"(size), "=&D" (_ d0), "=&S" (__ di), "=r"(_d2) \ 
: "3"(size), "0" (size), "1"(to), "2"( from) 
; "memory"); 


\ 


A 
\ 
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这 段 汇 编 代码 在 ".section .fixup,"ax\"n" 之 前 就 是 常规 的 内 存 撞见 操 作 〈 基 本 等 同 于 x86 上 


memcpy 的 实现 )， 特 殊 的 地 方 在 于 后 半 段 定义 的 两 个 section: ".fixup" 和 " ex table". 


在 继续 这 个 话题 之 前 ， 先 来 想 一 个 问题 : 为 什么 要 使 用 copy. from. user 函数 呢 ? 


理论 上 说 ， 内 核 空 间 可 以 直接 使 用 用 户 空间 传 过 来 的 指针 ， 即 使 要 做 数据 拷贝 的 动作 ， 也 
可 以 直接 使 用 memcpy， 事 实 上 在 没有 MMU 的 体系 架构 上 ，copy from user 最 终 的 实现 就 
是 利用 了 memcpy。 但 是 对 于 大 多 数 有 MMU 的 平台 ， 情 况 就 有 了 些 变化 ， 用户 空间 传 过 
来 的 指针 是 在 虚拟 地 址 空间 上 的 ， 它 所 指向 的 虚拟 地 址 空间 很 可 能 还 没有 真正 映射 到 实际 
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的 物理 页 面 上 。 但 是 这 又 能 怎样 呢 ? 缺 页 导致 的 异常 会 很 透明 地 被 内 核 予 以 修复 (为 缺 页 
的 地 址 空间 提交 新 的 物理 页 面 )， 访 问 到 缺 页 的 指令 会 继续 运行 仿佛 什么 都 没有 发 生 一 样 。 
但 这 只 是 用 户 空间 缺 页 异常 的 行为 ， 在 内 核 空间 这 种 缺 页 异常 必须 被 显 式 地 修复 ， 这 是 由 
a A i EU a ee, 





2r [8] ASE 2 7c: ie, . 


现在 回 到 ”copy_user_zeroing 函数 ， 标 号 4 处 显然 是 个 内 存 访问 指令 ， 如 果 搬 移 (mov) 
的 源 地 址 (在 用 户 空间 》 位 于 一 个 尚未 被 提交 物理 页 面 的 空间 中 ， 将 产生 缺 页 异常 ， 内 核 
会 调用 do page fault 函数 来 处 理 这 个 异常 ， 因 为 异常 发 生 在 内 核 空间 ，do_page fault 将 调 
用 search exception tables ZE" ex table"section 中 查找 产生 异常 指令 所 对 应 的 修复 (fixup) 
指令 。 在 ”copy_user zeroing PA EIE ER, TE" ex table"section 中 定义 了 如 下 数据 ; 


" long 4b,5b\n" 


其 中 4b 对 应 标号 4 处 的 指令 ，5b 对 应 标号 5 处 的 指令 ， 是 4b 处 指令 的 修复 指令 。 这样 ， 
当 标 号 4 处 发 生 缺 页 异常 时 ， 系 统 将 调用 do page fault 提交 物理 页 面 ， 然 后 跳 转 到 标号 5 
的 指令 处 继续 运行 。 


如 果 在 驱动 程序 中 不 使 用 copy. from user 而 用 memcpy 来 代替 ， 对 于 上 述 的 情形 会 产生 什 
么 结果 呢 ? 当 标 写 4 处 发 生 缺 页 异常 时 , 系统 在 "” ex_table"section 中 将 找 不 到 修复 地 址 ( 因 
为 memepy HAIR copy from user 那样 定义 一 个 "_ ex_table"section)， 此 时 do page fault 
将 通过 no context 函数 产生 oops， 极 有 可 能 会 看 到 类 似 如 下 信息 : 


BUG: unable to handle kernel paging request at 188be008 
所 以 为 了 确保 设备 驱动 程序 的 安全 ， 应 该 使 用 copy from user 函数 而 不 是 memcpy。 


这 里 用 了 x86 平台 作为 例子 ， 虽 然 其 他 平台 上 的 实现 可 能 会 有 不 同 ， 但 是 总 体 上 它们 的 设 
计 思 想 是 一 样 的 。 


如 果 需 要 将 内 核 空 间 的 数据 拷贝 到 用 户 空间 ， 可 以 使 用 copy to user 函数 ， 其 背后 的 设计 
理念 和 copy_from_user 完全 一 样 。 该 函数 的 定义 为 : 


<include/asm-generic/uaccess. h> 


一 


static inline long copy_to_user(void — user *to, 
const void *from, unsigned long n) 
{ 
might sleep); 
if(access ok(VERIFY WRITE, to, n)) 
return copy to user(to, from, n); 
else 
return n; 
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参数 *to 是 用 户 空 间 指 针 ，*from 是 内 核 空间 指针 ，n 是 要 拷贝 的 字 节 数 。 如 果 拷 贝 成 功 函 
数 返回 0， 盏 则 返回 尚未 被 拷贝 的 字 节 数 。 


除了 上 述 的 copy from user 和 copy to user 函数 ， 在 用 户 空间 和 内 核 空间 交换 数据 时 还 有 
两 个 常用 的 函数 : get user 和 put_user。 相 对 于 copy from user 和 copy. to user， 这 两 个 函 
数 主要 用 来 完成 一 些 简 单 类 型 变量 (char. int. long 等 ) 的 拷贝 任 务 ， 对 于 一 些 复合 类 型 
的 变量 ， 如 数据 结构 或 者 数组 类 型 ，get user 和 put user 函数 则 无 法 胜任 : 函数 内 部 将 对 
ptr 所 指 回 的 对 象 长 度 进 行 检 查 ， 大 部 分 平台 只 支持 长 度 为 1,2,4 的 变量 。 


<include/asm-generic/uaccess.h> 


和 


#define get_user(x, ptr) \ 
a \ 
might sleep(); \ 
access ok(VERIFY READ, ptr, sizeof(*ptr)) ? A 
. get user(x, ptr): \ 
-EFAULT: \ 
)) 


get user EHI ^ EIE] ptr 指向 的 数据 拷贝 到 内 核 空间 的 变量 x 中 ， 其 内 部 实现 虽然 多 为 单条 
汇编 指令 实现 的 内 存 操作 比如 x86 的 MOV 指令 、ARM 的 LDR 指令 等 )， 但 依然 会 有 
"fixup" 和 ”ex_table"section。 函 数 如 果 成 功 则 返回 0， 否 则 返回 -EFAULT。 


TE 


#define put_user(x, ptr) \ 
({ \ 
might sleep(); A 
access ok(VERIFY WRITE, ptr, sizeof(*ptr)) ? \ 
. put user(x, ptr) : \ 
-EFAULT; A 
}) 


put user 用 来 将 内 核 空 间 的 一 个 简单 类 型 变量 x 拷贝 到 ptr 所 指向 的 用 户 室 间 中 。 函 数 能 自 
动 判断 变量 的 类 型 ， 如 果 成 功 则 返回 0， 否 则 返回 -EFAULT。 


以 下 是 get user 和 put user 的 用 法 示例 : 
iip X Fi P E [8] J84T 


int user *p- ...; 
iial 为 内 核 室 间 的 变量 
int val; 
IHE p 对 应 的 用 户 空间 整数 值 拷 风 到 内 核 空间 的 val 变量 中 
if (get_user(val, p)) 
return -EFAULT; 
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H/ 特 内 核 空 间 的 整 型 变量 val 拷 风 到 p 对 应 的 用 户 空间 中 
val = 10; 
if (put user(val, p)) 

return -EFAULT; 


在 设备 驱动 程序 中 ， 其 实现 的 ioctl 函数 主体 往往 都 是 一 个 switch…case 结构 ， 下 面 是 一 个 
实际 的 设备 驱动 程序 实现 的 unlocked. ioctl 代码 片段 ; 


static long zl]30310_espi_ioctl(struct file *filp, unsigned int cmd, unsigned long arg) 
{ 


if ( IOC TYPE(cmd) (= ZL30310 IOC MAGIC) 
return -ENOTT Y; 


if( IOC DIR(cmd) & IOC READ) 

err = access ok(VERIFY WRITE, (void — user *)arg, IOC SIZE(cmd)), 
if (err — 0 && JOC DIR(cmd) & IOC WRITE) 

err = !access ok(VERIFY READ, (void user *)arg, IOC SIZE(cmd)); 
if (err) 

return -EFAULT,; 


size =  IOC SIZE(cmd); 


mutex loek(&zl30310 espi->buf lock); 
switch (cmd) { 
case ZL30310 SPI IOC RD MODE: 
retval - put user(spi-"mode & SPI MODE MASK, 
( u8 user *Jarg); 
break; 


case ZL30310 SPI IOC REG READ: 
retval= get user(addr, ( u8 ^ user *)arg); 
2130310 reg read8(z130310 espi, addr, &regval); 
if(retval — 0)( 
. put user(regval ( u8  user*Jarg); 
} 
break; 


case ZL30310 SPI IOC REG WRITE: 
if. copy from user(&regop, (const void *)arg, size))! 
retval = -EFAULT; 
break; 
} 
7130310 reg write&(z130310 espi, regop.addr, regop.regval); 
break; 
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default: 
retval = -EFAULT: 
break; 

} 


mutex unlock(&zl30310_espi->buf_lock); 
return retval; 


} 


以 上 是 一 个 比较 典型 的 ioctl 的 实现 ， 代 码 首先 用 _IOC_TYPE 对 cmd 进行 初步 的 检验 ， 之 
后 调用 access ok 来 验证 用 户 空间 指针 的 有 效 性 , 因为 access ok 在 ioctl 函数 开始 就 被 调用 
了 ， 所 以 之 后 都 是 用 的 ”put user. — get user 和 copy from user 这 样 的 形式 ， 否 则 应 该 
使 用 put user. get user f copy_from_user。 因 为 是 unlocked ioctl 函数 ， 所 以 驱动 程序 需要 
实现 上 自己 的 互 斥 机 制 ， 上 而 的 例子 中 使 用 的 是 mutex lock 和 mutex unlock. 


ioctl 函数 的 返回 值 应 该 用 来 表示 该 函数 的 执行 状态 ， 有 些 书 认为 可 以 把 它 作 为 在 用 户 空 间 
和 内 核 空 间 进 行 数据 交换 的 一 种 方式 ， 这 不 是 一 种 好 的 编码 习惯 。 


7.2 SARS I/O 模型 


一 个 字符 设备 的 主要 功能 是 用 来 实现 VO 操作 ， 反 映 到 应 用 程序 中 就 是 进行 read 和 write 
等 相关 的 操作 。 在 对 一 个 设备 进行 读 写 操作 时 ， 鉴 于 设备 在 实际 的 操作 中 响应 速度 各 不 相 
同 ， 因 此 数据 并 不 总 是 在 任何 时 候 都 可 用 : 对 于 读 操 作 来 说 ， 也 许 请 求 的 数据 还 没有 达到 
设备 的 缓冲 区 : 对 于 写 操 作 来 说 ， 应 用 层 传递 过 来 的 数据 也 许 不 能 够 一 下 子 全 部 放 进 设备 
狭小 的 缓冲 区 。 此 时 对 于 这 些 读 写 操作 来 说 ， 要 人 么 放弃 等 待 直接 返回 一 个 错误 码 给 上 层 ， 
要 么 让 发 起 读 写 操作 的 进程 进入 等 待 状态 直到 数据 可 用 为 止 。 

根据 不 同 的 需求 和 使 用 场景 ,Linux 内 核 支持 几 种 不 同 的 UO 操作 模式 , 称 为 字符 设备 的 UO 


模型 ， 这 些 模型 根据 同步 与 异步 .阻塞 与 非 阻塞 可 以 划分 
为 四 大 类 。 图 7-2 简单 地 描述 了 这 种 IO 模型 的 分 类 ; a Ex FAE 


O 同步 阻塞 UO 同步 read/write 


readwrite 
to HMOHBLOCK) 





这 是 IO 模型 中 最 常用 的 一 种 操作 。 对 于 这 种 同步 阻塞 型 pm 
UO, 应 用 程序 执行 一 个 系统 调用 对 设备 进行 read/write 操 | 
作 ， 这 种 操作 会 阻塞 应 用 程序 直到 设备 完成 read/write 操 | | | 
作 或 者 返回 一 个 错误 码 。 在 应 用 程序 阻塞 的 这 段 时 间 里 ， a 
程序 所 代表 的 进程 并 不 消耗 CPU 的 时 间 ， 因 此 从 这 个 角 672 字符 设备 VO 模型 

度 而 言 ， 这 种 操作 模式 是 非常 高 效 的 。 为 了 支持 设备 的 这 种 VO 操作 模式 ， 设 备 驱动 程序 
需要 实现 file operations 对 象 中 的 read 和 write 方法 。 
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O 同步 非 阻塞 VO 


在 这 种 VO 操作 模式 下 ， 设 备 文件 以 非 阻 塞 的 形式 打开 CO _NONBLOCK)， 如 果 设 备 不 能 
立即 完成 用 户 程 序 所 要 求 的 WO 操作 ， 应 该 返回 一 个 错误 码 (EAGAIN 或 者 
EWOULDBLOCK， 两 者 是 同一 个 值 )。 


O Jr fm X UO 


这 种 模式 的 VO 操作 并 不 是 阻塞 在 设备 的 读 写 操作 本 身 ， 而 是 阻 赛 在 某 一 组 设备 蔗 件 的 折 
述 符 上 ， 当 其 中 的 某 些 描述 符 上 代表 的 设备 对 读 写 操作 已 经 就 绪 时 ， 阻 塞 状 态 将 被 解除 ， 
用 户 程 序 随后 可 以 对 这 些 描述 符 代 表 的 设备 进行 读 写 操作 。Linux 的 字符 设备 驱动 程序 需 
要 实现 file operations 对 象 中 的 poll 方法 以 支持 这 种 MO 模式 。 


O 开 步 非 阻塞 IO 


在 这 种 LO 操作 模式 下 ， 读 写 操 作 会 立即 返回 ， 用 户 程 序 的 读 写 请 求 将 被 放 入 一 个 请 求 队 
列 中 由 设备 在 后 台 弄 步 完 成 ， 当 设备 完成 了 本 次 的 读 写 操作 时 ， 将 通过 信号 或 者 回调 函数 
的 方式 通知 用 户 程序 。 需 要 说 明 的 是 ，Linux 系统 的 设备 中 ， 块 设备 和 网 络 设备 的 UO 模型 
属于 异步 非 阻塞 型 ， 对 于 字符 设备 而 言 ， 极 少 有 驱动 程序 需要 去 实现 这 种 模式 的 MO 操作 。 


字符 设备 驱动 程序 应 该 根据 有 具体 的 需求 实现 上 面 四 种 UO 模型 中 的 部 分 或 全 部 ， 本 节 将 讨 
论 驱 动 程 序 如 何 实 现 这 些 VO 模型 。 下 面 先 讨论 同步 模式 下 的 阻塞 和 非 阻 塞 操作 ， 然 后 再 
讨论 异步 模式 的 阻塞 与 非 阻塞 操作 。 


7.3 同步 阻塞 型 I/O 


本 节 讨 论 驱 动 程序 对 同步 阻塞 型 IO 方法 read 和 write 实现 机 制 的 底层 支持 , 介绍 在 实现 阻 
塞 型 TO 时 内 核 为 设备 驱动 程序 提供 的 相关 设施 。 这 些 内 核实 施 的 核心 设计 建立 在 等 待 队 
列 的 基础 之 上 ， 在 4.9 节 “ 等 待 队列 ”中 详细 介绍 过 内 核 中 等 待 队列 的 数据 结构 ， 下 面 将 
在 此 基础 上 展开 讨论 驱动 程序 实现 阻塞 型 IO 时 用 到 的 核心 函数 wait event 系列 和 wake up 
AN, 在 这 部 分 讨论 中 首先 介绍 使 用 频率 最 广 的 函数 ,然后 再 延伸 到 其 他 的 一 些 变 体 函数 。 


7.3.1 wait event interruptible 


在 Linux 内 核 中 , wait event interruptible 用 来 将 当前 调用 它 的 进程 睡眠 等 待 在 一 个 event 
上 直到 进程 被 唤醒 并 且 需 要 的 condition 条 件 为 真 。 睡 上 中 的 进程 其 状态 是 
TASK INTERRUPTIBLE 的 ， 这 意味 着 它 可 以 被 用 户 程 序 所 中 断 而 结束 ， 但 通常 的 情况 是 
进程 等 待 的 event 事件 发 生 了 ， 它 被 唤醒 重新 加 入 到 调度 器 的 运行 队列 中 等 待 下 一 次 调度 
执行 。 这 个 宏 的 定义 是 : 
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<include/inux/wait.h> 
#define wait event interruptible(wa, condition) \ 
(4 \ 
int ret = 0; \ 
if ('(condition)) ^ 
. wait event interruptible(wg, condition, — ret); \ 
ret, \ 


1) 
wait event interrupt 在 condition 条 件 不 为 真 时 将 睡眠 在 一 个 等 待 队 列 wq 上 ;所 以 函数 首先 
判断 condition 是 否 为 真 ， 如 果 为 真 ， 函 数 将 直接 返回 ， 否 则 调用 它 的 进程 将 通过 
. wait event interruptible 最 终 进 入 睡眠 状态 ， 后 者 是 操作 进程 睡眠 与 否 的 核心 函数 : 


<include/linux/wait.h> 
#define ^ wait event interruptible(wq, condition, ret) \ 
do { \ 
DEFINE WAIT( wait); \ 
\ 
for (;;) { \ 
prepare to wait(&wq, & — wait, TASK_INTERRUPTIBLE);\ 
if (condition) \ 
break; \ 
if (!signal_pending(current)) | \ 
schedule(); A 
continue; \ 
] \ 
ret = -ERESTARTS YS: \ 
break; \ 
! \ 
finish wait(&wq, & wait); \ 
! while (0) 
DEFINE_WAIT(_ wait) 用 来 定义 一 个 镍 为 “ wait” 的 等 待 队列 节点 对 和 象 : 
wait queue t wait={ \ 
.private — current, \ 
.func = autoremove wake function, \ 


task list — LIST HEAD INIT((  wait).task list), \ 
h 
. wait 中 的 autoremove wake function 函数 在 节点 上 的 进程 被 唤醒 时 被 调用 ，private 指向 
当前 调用 wait_event_interrupt 的 进程 。 


接 下 来 是 函数 的 核心 结构 for(;;) 循 环 ， 首 先是 调用 prepare to wait 来 完成 睡眠 前 的 准备 工 
作 , 该 函数 要 做 的 具体 任务 是 : 1. 清 除 _wait 节点 flags 中 的 WQ FLAG EXCLUSIVE 标志 ， 
该 标志 在 唤醒 函数 中 要 用 到 : wait->flags &- -WQ FLAG EXCLUSIVE; 2. — wait 节点 
加 入 到 等 待 队 列 wq FP: — add wait queue(q，wait)， 该 函数 将 把 ”wait 节点 加 入 到 等 待 队 
列 中 成 为 头 节点 后 的 第 一 个 等 待 节 点 ， 所 以 后 进来 的 进程 将 最 先 被 唤醒 ， 3. 将 当前 进程 的 
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状态 设置 为 TASK INTERRUPTIBLE. 


prepare_to_wait 之 后 进程 依然 在 调度 器 的 运行 队列 中 ， 之 后 如 果 condition 条 件 依 然 为 假 并 
且 当 前 进程 也 没有 等 待 的 信和 号 需要 处 理 ，schedule 函数 将 被 调用 ， 在 那里 调度 器 将 把 当前 
进程 从 它 的 运行 队列 中 移 除 1，wait event interruptible 的 表现 形式 是 阻塞 (block) 在 了 
schedule 函数 上 直到 进程 下 次 被 唤醒 并 被 调度 执行 。 


当 进 程 被 唤醒 时 ，schedule 函数 返回 〈 此 时 进程 状态 为 TASK RUNNING， 所 在 的 等 待 节 
Hi wait 已 经 从 wq 中 删除 ), 通 过 continue 继续 for 循环 直到 condition 为 真 时 , 才 通 过 break 
进入 到 finish wait， 后 者 基本 是 prepare to wait 的 一 个 反 向 操作 ， 重 新 设置 进程 状态 为 
TASK_RUNNING, 然后 将 _ wait 节点 从 wq 中 删除 ， 这 是 对 prepare to wait 所 做 工作 的 清 
理 。 如 果 休 眠 的 进程 被 某 个 信和 号 所 中 断 ， 那 么 该 函数 将 返回 -ERESTARTSYS。 


当 程 序 需要 等 待 在 某 一 队列 中 直到 某 一 条 件 满足 时 ,除了 使 用 wait event interruptible 之 外 ， 
内 核 还 提供 了 一 些 变 体 国 数 ; 
wait event 


VA EE T dus Ud OH XtOFE XI A SRA 9]. A CCBOHE HR XE RR OR] dA od od 
TASK UNINTERRUPTIBLE. 该 函数 与 wait event interruptible 的 区 别 是 , 它 使 睡眠 的 进程 
不 可 被 中 断 ， 而 且 当 进程 被 唤醒 时 也 不 会 检查 是 否 有 等 待 的 信号 需要 处 理 。 


wait_event_timeout 


调用 该 函数 的 进程 如 果 进 入 睡眠 ， 其 状态 也 是 TASK UNINTERRUPTIBLE, 意味 着 不 
可 被 中 断 , 而 且 当 进程 被 唤醒 时 也 不 检查 是 否 有 等 待 的 信号 需要 处 理 .。 该 函数 与 wait event 
的 区 别 是 ， 会 指定 一 个 时 间 期 限 ， 在 指定 的 时 间 到 达 时 将 返回 0。 


wait event interruptible timeout 

在 wati event interruptible 函数 的 基础 上 加 入 了 时 间 期 限 , 在 指定 的 时 间 到 达 时 函数 将 
返回 0 
7.3.2 wake up. interruptible 


宏 wake up interruptible 用 来 唤醒 一 个 等 待 队 列 上 的 睡 眼 进程， 其 调用 序列 如 下 ， 
<include/linux/wait.h> 


"TT 


#define wake up interruptible(x) ^ wake up(x, TASK_INTERRUPTIBLE, 1, NULL) 


1 schedule 函数 中 调用 deactivate task 来 将 当前 任务 从 运行 队列 中 移 除 ， 在 多 处 理 器 系统 中 ， 每 个 CPU 都 拥有 属于 自己 
的 运行 队列 。 
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<kernellisched.c> ee 
ME void wake up(wait queue head t *q, unsigned int mode, 
int nr exclusive, void *key) 
i 
unsigned long flags; 


spin_lock_irqsave(&q->lock, flags); 
__wake_up_common(q, mode, nr exclusive, 0, key); 
spin unlock irgrestore(&q--lock, flags); 
} 
<kernel/sched.c> . 
"static void wake up common(wait queue head t*q, unsigned int mode, — 
int nr exclusive, int wake flags, void *key) 


{ 


wait queue t *curr, *next, 


list for each entry safe(curr, next, &q-^task list, task. list) { 
unsigned flags = curr->flags; 
if (curr->func(curr, mode, wake_flags, key) && 
(flags & WQ FLAG EXCLUSIVE) && !--nr exclusive) 
break; 


} 


所 以 对 于 一 个 等 待 队列 x, wake up interruptible(x) 展开 后 的 实际 调用 是 
. wake up common(x, TASK INTERRUPTIBLE, 1, 0, NULL) . 后 者 Ñ 过 
list for each entry safe 对 等 竺 队列 x 进行 遍历 ， 对 于 遍历 过 程 中 的 每 个 等 待 节点 ， 都 会 调 
用 该 节点 上 的 函数 func， 前 面 讨论 walt event interruptible 时 看 到 func Arts I BER AJ 
autoremove wake_function， 其 主要 功能 是 唤醒 当前 等 待 节点 上 的 进程 《把 进程 如 入 调度 器 
的 运行 队列 ， 进 程 状态 变 成 TASK RUNNING) 并 将 等 待 节 点 从 等 待 队列 中 移 除 ， 通 常情 
况 下 函数 都 会 成 功 返 回 1。 从 上 面 的 代码 中 也 看 到 ， 如 果 想 让 顶 数 结束 遍历 ， 必 须 满足 三 
个 条 件 : 1 负责 唤 醒 进 程 的 函数 fun 成 功 返 回 : 2. 等 待 节点 的 flags 成 员 设 置 了 
WQ FLAG EXCLUSIVE 标志 ， 这 是 个 排他 性 的 标志 ， 如 果 设 置 有 该 标志 ， 那 么 唤醒 当前 
节点 上 的 进程 后 将 不 会 再 继续 唤醒 操作 ，3.nr exclusive FF 1, nr exclusive 表示 允许 唤醒 
的 排他 性 进程 的 数量 。 对 于 条 件 1， 通 常 都 会 满足 ， 如 果 不 满足 ， 那 么 极 大 的 可 能 性 是 因 
为 唤醒 时 使 用 的 进程 状态 的 标志 不 对 ， 这 点 马上 会 提 到 。 所 以 在 此 可 以 将 函数 结束 继续 唤 
醒 队 列 中 的 进程 的 条 件 简单 归纳 为 ， 遇 到 一 个 排他 性 唤醒 的 节点 并 且 当 前 多 许 排他 性 唤醒 
的 进程 数量 为 1。 


因为 在 wait_event_interruptible 函数 调用 中 ，WQ_FLAG_EXCLUSIVE 标志 是 被 清除 的 ， 这 
意味 看 wake up interruptible 414 AMR SERS x 每 个 节点 上 的 进程 。 
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wake up interruptible 函数 在 内 核 中 同样 有 自己 的 一 些 变 体 ， 它 们 之 间 的 主要 区 别 除 了 
TASK INTERRUPTIBLE 和 TASK UNINTERRUPTIBLE 之 外 ， 在 于 每 次 调用 时 试图 唤醒 
进程 的 数量 ， 因 为 唤醒 一 个 进程 不 他 在 timeout 的 问题 ， 所 以 没有 类 似 wake up timeout 这 
样 的 函数 。 关 于 wake up 系列 函数 中 进程 状态 的 使 用 ， 可 能 会 给 驱动 程序 员 造 成 一 定 的 困 
惑 ， 有 必要 具体 讨论 一 下 。 


可 以 看 到 wake up interruptible 宏 定 义 中 用 到 了 TASK INTERRUPTIBLE 参数 ， 这 个 参数 
会 在 调用 等 待 节点 上 的 func, EPLE autoremove wake function 函数 时 用 到 ， 实 际 的 代码 
发 生 在 autoremove wake function 调用 的 try to wake up 函数 里 : 


<kernel/sched.c> 


Tr 


static int try to wake up(struct task struct *p, unsigned int state, 


em p dECOHE GE ME ERO UN aM RS cm m um m mr men n me cR mi RR ee m cim 


int wake flags) 

{ 

int success = 0; 

if ('(p->state & state)) 

goto out; 

success = |: 
out: 

return success; 
} 


函数 用 p->state & state 将 wake up 系列 函数 中 的 进程 状态 与 要 唤醒 的 进程 的 状态 进行 检查 ， 
如 果 p->state & state=0 的 话 那么 唤醒 操作 返回 0， 是 一 次 不 成 功 的 操作 。 因 此 ， 
wake_up_interruptible 只 能 唤醒 通过 wait_event_interruptible 睡眠 的 进程 。 这 里 将 wake_up 
一 些 和 常见 的 变 体 列 在 下 面 ， 读 者 通过 这 些 宏 定义 应 该 可 以 明白 它们 实际 要 完成 的 功能 : 


<include/linux/wait.h> 


#define wake_up(x) . wake up(x, TASK NORMAL, 1, NULL) 

#define wake up nr(x, nr) . wake up(x, TASK NORMAL, nr, NULL) 

#define wake up all(x) . wake up(x, TASK NORMAL, 0, NULL? 

#define wake up locked(x) . wake up locked((x), TASK NORMAL) 

#define wake up interruptible(x) . wake up(x, TASK INTERRUPTIBLE, 1, NULL) 
fdefine wake up interruptible nr(x, nr) . wake up(x, TASK INTERRUPTIBLE, nr, NULL) 
"define wake up interruptible all(x) . wake up(x, TASK INTERRUPTIBLE, 0, NULL) 
Hdefine wake up interruptible sync(x) . wake up sync((x), TASK INTERRUPTIBLE, 1) 


因 为 TASK NORMAL 在 内 核 中 的 定义 为 (TASK INTERRUPTIBLE | 
TASK_UNINTERRUPTIBLE)， 所 以 wake up 可 以 取代 wake up interruptible， 也 可 以 用 来 
唤醒 因 wait event 而 睡眠 的 进程 。 虽 然 使 用 的 规则 可 简单 归纳 为 ， 要 将 wait event 和 
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wake up, wait event interruptible 和 wake up interruptible 分 别 配 对 使 用 ， 但 是 读者 如 果 能 
对 此 处 提 到 的 各 个 函数 背后 的 行为 机 制 有 个 清晰 的 认识 ， 相 信和 在 实际 的 代码 编号 中 一 定 可 
以 灵活 运用 。 


wake up nr 和 wake up all 表示 可 以 唤醒 的 排他 性 进程 的 数量 ，wake_up_nr 可 以 唤醒 nr 个 
这 样 的 进程 , wake_up_all 则 可 以 唤醒 队列 中 所 有 的 排他 性 进程 , wake_up 则 只 能 唤醒 一 个 ， 
当然 对 于 非 排 他 性 节点 上 的 进程 这些 函 数 部 会 试图 去 唤醒 它们 。 对 应 的 
wake up interruptible 系列 函数 除了 只 能 唤醒 TASK_INTERRUPTIBLE 状态 的 进程 外 , 其 他 
的 功能 和 wake up 系列 一 样 。 


其 中 wake up locked 和 wake up 的 唯一 区 别 是 ，wake_up 函数 内 部 会 使 用 等 待 队列 的 自 旋 
Hi, wake up locked 则 不 会 ， 所 以 如 果 程 序 中 要 使 用 wake_up_locked， 和 那么 需要 上 自己 考虑 
加 锁 的 问题 ，wake_up_interruptible_sync 则 用 来 保证 调用 它 的 进程 不 会 被 唤醒 的 进程 所 抢 
占 而 调度 出 处 理 器 2。 


通过 上 面 对 wait event interruptible 函数 的 讨论 , 现在 看 看 驱动 程序 中 如 何 利用 它 实 现 阻塞 
的 IO 操作 ; 


(1) 驱动 程序 首先 需要 定义 一 个 等 待 队 列 的 头 节 点 ， 可 以 通过 DECLARE_WAIT_QUEUE_ 
HEAD 宏 来 完成 静态 定义 和 初始 化 ， 比 如 : 


static DECLARE WAIT QUEUE HEAD(demo rd wq); 

n S BE Re ie 11 Ala eat — TA rx. FY EEG init waitqueue head PR, tha: 
static wait queue head t demo rd wq; 
eT itqueue_head(&demo_rd_wa); 

总 之 ， 驱 动 程序 需要 先 建立 一 个 属于 自己 的 等 待 队列 。 

(DEHE IO 函数 的 实现 中 调用 wait_event_interruptible 等 待 数据 可 用 , 比如 在 read 函数 中 : 
static ssize t demo read (struct file * filp, char user * buf, size_t count, loff t *f pos){ 

M test bittRD DATA READY, &demodev_buf->state)); 

| - 


(3) 实现 一 个 demo read 等 等 的 数据 可 用 时 唤醒 操作 , 一 般 多 在 驱动 程序 的 中 斯 处 理 例 程 里 : 


irgreturn t demo isr(int irq, void * dev_id){ 


2 在 tm to wake up Ht, Ze UR check, preempt curr 来 检查 新 被 唤醒 的 进程 是 否 可 以 抢占 当前 正 运行 的 进程 。 
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set bit(RD DATA READY, &demodev_buf->state); 
wake up interruptible(demo rd wq); 


} 


以 上 讨论 了 内 核 提供 的 wait event 和 wake up 函数 ， 内 核 在 这 些 函 数 中 为 等 待 队列 提供 了 
默认 的 操作 模式 ， 已 可 满足 大 多 数 设备 驱动 程序 的 要 求 。 不 过 如 果 必 要 ， 程 序 员 也 可 以 按 
照 wait event 和 wake up 函数 的 实现 原理 来 构建 自己 的 睡眠 和 唤醒 函数 ， 比 如 一 个 典型 的 
睡眠 序列 可 能 是 下 面 这 个 样子 : 

/定义 一 个 等 待 节点 wait 

DECLARE WAITQUEUE(wait, current); 

/设置 进程 状态 

set current state(TASK UNINTERRUPTIBLE); 

/将 节点 加 入 等 待 队列 

add wait queue(&demo rd wq, &wait); 

/调用 schedule 函数 让 进程 进入 睡眠 状态 

schedule(); 

/唤醒 以 后 将 等 待 节 点 从 队列 中 移 除 


remove wait queue(&demo rd wq, &wait); 


使 用 内 核 提供 的 函数 还 是 构建 自己 的 睡眠 和 唤醒 序列 ， 这 里 没有 既定 的 规则 可 以 遵循 ， 总 
之 根据 实际 情况 灵活 处 理 就 好 了 。 笔 者 的 建议 是 ， 应 该 首先 使 用 内 核 提 供 的 函数 ， 如 果 它 
们 的 确 无 法 满足 需要 ， 那 么 再 构造 自己 的 睡眠 和 唤醒 函数 。 


7.4 同步 非 阻 塞 型 TI/O 


前 面 看 到 ， 驱 动 程序 在 实现 read/write 函数 时 ， 如 果 所 需要 的 数据 暂时 不 可 用 ， 那 么 默认 的 
行为 是 让 执行 这 些 操作 的 进程 休眠 《阻塞 )。 但 是 驱动 程序 员 必 须 意识 到 ， 有 时 候 从 用 户 室 
间 应 用 程序 的 角度 来 说 , 可 能 并 不 希望 让 read/write 进入 阻塞 状态 ,不管 用户 这 样 做 是 出 于 
什么 原因 ， 作 为 驱动 程序 ， 必 须 能 支持 用 户 的 这 一 要 求 。 用 户 的 要 求 以 OQ NONBLOCK 标 
志 的 形式 传达 到 驱动 程序 中 ， 如 果 用 户 希 望 这 是 一 个 不 能 阻塞 的 操作 ,他 可 能 会 在 open 这 
个 文件 时 指定 O_NONBLOCK 或 是 在 read/write 操作 之 前 在 指定 的 文件 描述 符 上 通过 fentl 
WE ONONBLOCK 标志 ， 无 论 如 何 这 种 情况 下 驱动 程序 可 以 通过 传递 到 read/write 的 参 
数 struct file *filp 来 获得 这 一 信息 : 在 用 户 指定 了 O NONBLOCK 的 情形 下 , filp->f flags & 
O NONBLOCK 的 结果 为 真 。 


所 以 ， 一 个 功能 完整 的 read/write 应 该 在 它 的 执行 流程 中 检测 filp->f flags 上 的 
O NONBLOCK 位 有 没有 被 设置 ， 如 果 设 置 了 的 话 操作 可 以 简单 地 返回 一 个 错误 码 
-EAGAIN 而 宣告 结束 ， 否 则 应 该 按照 默认 的 阻塞 方式 来 进行 。 这 里 虽然 只 用 read/write 作 
为 描述 的 例子 ,但 事实 上 字符 设备 驱动 程序 可 以 根据 需要 在 所 有 可 以 获得 filp->f flags 的 操 
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作 函 数 中 执行 相应 的 策略 。 


7.5 ”异步 阻塞 型 I/O 


本 节 讨 论 了 驱动 程序 中 如 何 支 持 设 备 的 异步 阻塞 型 VO 操作 模式 ， 反映 到 file operations T+ 
上 上 ， 就 是 讨论 在 设备 驱动 程序 中 如 何 实现 poll 方法 。 专 注 于 内 核 空间 的 设备 驱动 程序 员 也 
许 不 太 关 注 应 用 层 的 操作 ， 但 是 至 少 要 了 解 一 下 驱动 程序 提供 的 poll 函数 如 何在 用 户 空间 
里 使 用 。 相 对 于 驱动 程序 ， 用 户 空 间 的 程序 在 poll 这 一 类 的 操作 上 也 许 有 更 广 的 选 拌 ， 除 
了 原生 态 的 poll 调用 ， 还 有 select 和 epoll。 对 驱动 程序 员 来 说 ， 一 个 比较 好 的 消息 是 这 些 
调用 最 终 到 驱动 程序 中 只 由 poll 函数 来 实现 。 


在 讨论 驱动 程序 的 poll 函数 实现 之 前 , 不 妨 先 简单 看 一 下 应 用 程序 使 用 poll. select 和 epoll 
要 完成 什么 功能 。 在 用 户 空间 ，poll、select 和 epoll 的 原型 声明 分 别 是 : 


int poll(struct pollfd *ufds, unsigned int nfds, int timeout); 
int select(int nfds, fd set *readset, fd set *writeset, fd set *exceptset, struct timeval *timeout); 


int epoll create(int size) ; 
int epoll ctl(int epfd, int op, int fd, struct epoll event *event); 


int epoll wait(int epfd,struct epoll event * events,int maxevents,int timeout), 


在 用 户 空间 ， 应 用 程序 将 要 操作 的 一 组 文件 的 描述 符 加 入 到 一 个 集合 中 ， 然 后 在 这 个 集合 
的 基础 上 使 用 这 些 国 数 来 监控 其 中 的 每 个 文件 描述 符 : 倘若 集合 中 的 每 个 文件 目前 都 不 可 
以 进行 读 取 写 和 操作， 进程 也 许 会 因此 而 被 阻塞 ， 直 到 该 集合 中 的 任 一 文件 可 读 或 者 可 写 。 
poll 和 select 函数 本 质 上 是 一 样 的 ， 鉴 于 poll 函数 较 之 select 函数 更 易于 使 用 ， 所 以 本 章 会 
以 poll API 函数 为 讨论 的 重点 。poll API 的 第 一 个 参数 是 类 型 为 struct polifd 的 指针 ， 在 用 
户 空 间 ， 其 定义 为 ; 


<sys/poll.h> 
smuctpolfd{ ———— 0 
int fd; // 文 件 描述 符 
short events; // 等 待 的 事件 ， 通 常 是 一 组 宏 常 数 的 组 合 ， 每 个 常数 表示 一 种 事件 
short revent; /驱动 程序 中 实际 发 生 的 事件 


H 


poll API 的 第 二 个 参数 表示 等 待 的 文件 描述 符 的 个 数 〔 代 码 层面 就 是 struct pollfd 对 象 的 个 
数 )， 第 三 个 参数 是 超时 期 限 ， 单 位 是 毫秒 。 


显然 ， 集 合 中 的 这 些 文件 描述 符 所 对 应 的 底层 设备 的 驱动 程序 需要 支持 应 用 程序 的 这 种 机 
制 ， 更 具体 地 ， 驱 动 程 序 需 要 在 它们 的 file_operations 结构 中 实现 自己 的 poll 函数 : 


unsigned int (*poll) (struct file *, struct poll table struct *); 
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虽然 设备 驱动 程序 员 也 许 不 需要 了 解 应 用 程序 和 驱动 程序 在 poll 机 制 上 进行 互动 的 所 有 细 
访 ， 然 而 了 解 内 核 赋予 的 这 种 整体 框架 上 的 设计 思想 有 助 于 驱动 程序 员 在 设计 的 工作 中 提 
供 更 完美 的 解决 方案 。 上 述 三 种 应 用 空间 的 函数 原型 的 声明 和 使 用 方法 以 及 性 能 或 许 不 同 ， 
但 总 体 上 说 ， 其 背后 歼 藏 的 设计 思想 非常 相似 Cepoll 可 能 要 特殊 一 些 ， 可 以 认为 是 对 前 两 
种 方法 在 性 能 上 的 一 种 改进 )。 这 里 不 妨 以 poll 函数 为 例 , 看 看 从 用 户 室 间 到 驱动 程序 间 的 
作业 流程 。 直 觉 上 看 来 ， 背 后 少不了 等 待 队 列 的 支持 ， 问 题 是 内 核 如 何 把 驱动 程序 与 应 用 


应 用 程序 的 poll 郴 数 将 通过 系统 调用 sys. poll 进入 内 核 空间 : 
<fs/select.c> 


int sys_poll(struct pollfd  user* ufds, unsigned int nfds, long timeout_msecs); —— 


该 系统 调用 的 函数 原型 和 用 户 空间 的 poll 一 样 , 函数 内 部 主要 调用 do sys poll 来 实现 其 核 
心 功能 ， 后 者 的 主体 框架 在 内 核 源码 中 看 起 来 如 下 : 


<fs/select.c> 


a en ee ROC —oUpoUo ROO Lo d oA a d Lo .7 db od domo Mod er 


int do sys poll(struct pollfd ^ user *ufds, unsigned int nfds, struct timespec *end time) mE 
i 


poll_initwait(&table); 
fdcount = do poll(nfds, head, &table, end time); 
poll freewait(&table), 


} 


其 中 table 变量 是 个 关键 元 素 ， 因 为 这 个 变量 中 的 成 员 poll_table pt 将 被 传递 给 驱动 程序 ， 
所 以 有 必要 看 看 table 的 类 型 定义 和 poll_initwait 的 实现 。table 是 个 struct poll wqueues 类 
型 的 变量 ， 后 者 的 定义 为 : 


<include/linux/poll. h> 


struct poll wqueues { | 

poll table pt; 

struct poll table page *table; 

struct task struct *polling task; 

int triggered; 

int error, 

int inline index; 

struct poll table entry inline entries|[N. INLINE POLL ENTRIES]; 
h 


struct poll wqueues {RMN Patt ^E YE poll initwait 函数 中 ， 


<fs/select.c> 


[wwe ee em eee Per ease a eee & doo oc mo EP c— c ee Tea odo eee ee eee eae ee ee a 


void poll_initwait(struct poll _wqueues *pwq) 


"on od: uou oe -É 
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pwq->pt.qproc = — pollwait; 
pwg->pt.key = ~0UL; 
pwq->polling task = current; 
pwq->triggered = 0; 
pwq->error = 0; 
pwq->table = NULL; 
pwg->inline_index = 0; 

j 


poll initwait 中 除了 初始 化 poll wqueues 中 的 poll table 成 员 pt， 另 一 个 比较 重要 的 步骤 是 
把 当前 进程 的 task. struct 对 象 指针 current 放 入 到 pwq 的 polling task 中 ， 唤 醒 操 作 将 会 用 
这 个 变量 找到 需要 唤醒 的 进程 。 


poll freewait 函数 调用 只 做 一 些 资源 释放 类 的 辅助 工作 。do_sys_poll 的 核心 实现 是 在 do poll 
中 ， 谍 函数 可 能 会 被 阻塞 ， 当 其 返回 时 ， 其 返回 值 facount 将 传递 到 用 户 空 间 用 以 指示 本 次 
操作 的 状态 : 


€ fdcount>0 表明 集合 中 有 fdcount 个 文件 描述 符 可 以 进行 读 或 者 写 。 

€ fdeount=0 表明 集合 中 所 有 文件 描述 符 尚 无 状态 变化 时 ,timeout 指定 的 时 间 到 , 函数 超时 。 
€ fdcount<0 表明 函数 调用 失败 ， 错 误 原因 将 写 入 ermo. 

do poll 函数 的 框架 结构 可 以 看 成 如 下 形式 : 


static int do_poll(unsigned int nfds, struct poll list *list, 
struct poll wqueues *wait, struct timespec *end time) 
{ 
poll table* pt = &wait->pt; 


if (end time && !end_time->tv_sec && !end_time->tv_nsec) { 
pt = NULL; 
timed_out = 1; 


} 


for (;:) { 
struct poll_list *walk; 
for (walk = list; walk != NULL; walk = walk->next) { 
struct pollfd * pfd, * pfd_end; 
pfd = walk->entries; 
pfd_end = pfd + walk->len; 
for (; pfd != pfd_end; pfd++) { 
if (do_pollfd(pfd, pt)) { 
count; 
pt = NULL; 


254 ”深入 Linux 设备 驱动 程序 内 核 机 制 


} 
} 
} 
pt = NULL; 


if (count || timed_out) 
break; 
if (ipoll schedule timeout(wait, TASK INTERRUPTIBLE, to, slack)) 
timed_out = 1; 
return count; 


} 


其 核心 是 一 for(;;) 循 环 ， 在 该 循环 中 首先 会 对 文件 描述 符 集 合 中 的 每 个 描述 符 调用 
do_pollfd， 同 时 传 入 一 个 struct pollfd 类 型 的 指针 ， 在 内 核 空间 struct pollfd 的 定义 为 : 


<include/asm/poll.h> 


struct pollfd { 
int fd; 
short events; 
short revents; 


}; 
do pollfd 的 主要 功能 是 根据 当前 的 fd 找到 对 应 的 struct file *filp TR, 然后 调用 poll HF: 


fd = pollfd->fd; 

file = fget light(fd, &fput needed); 
mask = file->f_op->poll(file, pwait); 
pollfd->revents = mask; 


这 里 需要 注意 mask HER, CHORE RE PH] poll 例 程 返回 ， 用 来 记录 驱动 程序 中 
发 生 的 事件 ， 然 后 do_pollfd 将 其 记录 在 pollfd->revents 中 ， 并 最 终 返 回 到 用 户 空间 。 


根据 do poll 的 框架 可 知 : 首先 每 个 fd 所 对 应 的 设备 驱动 程序 在 自己 实现 的 poll 例 程 中 不 
应 该 睡 眠 ， 应 用 程序 调用 的 poll 只 会 睡眠 在 poll schedule timeout 这 里 ;其 次 如 果 不 考虑 
超时 的 因素 ， 当 前 进程 从 poll schedule timeout 中 醒 来 应 该 是 拜 驱 动 程序 中 的 poll 例 程 所 
赐 ， 因 为 只 有 驱动 程序 才 知 道 自己 管理 的 设备 什么 时 候 数 据 就 绪 ， 因 此 驱动 程序 少不了 数 
据 就 绪 后 的 唤醒 环节 。 另 一 点 要 注意 的 是 ， 调 用 select 的 用 户 进 程 以 
TASK_INTERRUPTIBLE 的 状态 进入 睡眠 队列 ， 这 是 一 种 被 称 为 可 中 断 的 睡眠 状态 。 


所 以 我 们 看 到 驱动 程序 对 poll 特性 的 支持 实际 上 可 分 为 两 部 分 ; 第 一 部 分 是 poll 例 程 本 身 ， 
那里 它 将 某 一 等 待 节点 对 象 加 入 到 自己 管理 的 等 待 队列 中 ， 第 二 部 分 是 数据 就 绪 后 的 唤醒 
操作 。 同 时 我 们 也 看 到 核心 的 for(;;) 循 环 有 一 条 break 语句 ， 表 明 或 者 是 用 户 程序 调用 poll 

函数 时 设 定 timeout 参数 为 0, 或 者 是 对 当前 设备 执行 poll 操作 时 设备 中 恰好 有 就 绪 的 数据 ， 
前 一 种 表明 用 户 不 希望 对 poll 的 调用 出 现 阻塞 ， 用 户 只 需要 查询 一 下 文件 描述 符 集 是 否 有 
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些 岂 已 经 就 绪 ， 后 一 种 情况 表明 文件 描述 符 集合 中 至 少 已 经 有 一 个 设备 文件 当前 是 可 以 进 
行 无 阻塞 操作 的 ， 所 以 这 两 种 情况 都 不 应 该 进入 poll schedule timeout 让 进程 睡眠 , 


现在 正 是 讨论 驱动 程序 的 poll 例 程 如 何 实现 的 好 时 机 ， 在 do poll +, FR fd 调用 
do pollfd(pfd, pb 时 都 会 传 入 一 个 pt 参数， 这 个 变量 在 do_poll 一 开始 就 给 出 了 定义 ; 


poll table* pt = &wait->pt, 


可 见 pt 是 个 poll table 型 的 指针 ， 而 且 对 于 每 个 岂 的 调用 ， 都 会 将 该 指针 传 入 。 驰 动 程序 
在 poll 例 程 中 的 关键 调用 是 poll_wait: 


<include/linux/poll.h> 


static inline void poll_ wait(struct fi fi le : T filp, wait queue | head 1 t * wait address, poll | table *p) 
{ 
if (p && wait_address) 
.. pollwait (filp, wait address, p); //3& 4 F Æ p->qproc(filp, wait address, p); 


<fs/select.c> E i 

static void — pollwait(struct file *filp, wait queue head t t *wait . address, 
poll table *p) 

{ 


struct poll wqueues *pwq = container of(p, struct poll wqueues, pt); 
struct poll table entry *entry = poll get entry(pwq); 
if (lentry) 
return; 
get, file(filp); 
entry->filp = filp; 
entry->wait_address = wait_address; 
entry->key = p->key; 
init_Waitqueue_func_entry(&entry->wait, pollwake); 
entry->wait.private = pwq; 
add wait queue(wait address, &entry-- wait); 
j 


函数 的 大 意 是 产生 一 个 等 待 节点 entry->wait， 该 节点 上 的 唤醒 国 数 为 pollwake， 然 后 将 其 
加 入 等 待 队列 wait address 中 ， 后 者 是 由 各 自 的 设备 驱动 程序 维护 的 等 待 队列 。 这 里 对 
poll table 指针 p 的 使 用 是 ， 通 过 p 获得 pwq 指针 ， 然 后 从 pwa 管理 的 数据 结构 上 获得 等 
待 节点 所 在 的 空间 。 注 意 ， 如 果 调 用 poll wait 时 ， 传 入 的 poll table 参数 指针 为 NULL, 
则 该 函数 不 会 进行 任何 操作 ， 当 应 用 程序 调用 poll 函数 时 ， 如 果 指 明 timeout=0， 则 表明 用 
户 不 希望 在 该 函数 进行 任何 等 待 ， 所 以 这 种 情况 下 驱动 程序 无 须 将 任何 等 待 节 点 加 入 自己 
的 等 待 队列，do_poll 函数 在 一 开始 就 针对 这 种 情况 赋予 了 poll table 参数 一 个 空 指针 。 


以 上 流程 大 体 如 图 7-3 所 示 : 


256 ”深入 Linux 设备 驱动 程序 内 核 机 制 


—_ CC 


应 用 程序 poll 






人 
内 核 空间 





.Wake UP 一 . 
è 
5 1 | 








H| 等 待 队列 头 























图 7-3 poll 实现 框架 


对 于 一 个 设备 驱动 而 言 ， 为 了 实现 自己 的 poll 例 程 ， 需 要 构造 自己 的 等 待 队 列 ， 然 后 通过 
调用 poll wait 将 一 个 等 待 节点 加 入 到 自己 的 等 待 队 列 中 ，pol] wait 函数 内 部 负责 从 pwq 
对 和 象 中 申请 容纳 等 待 节 点 的 空间 并 对 其 初始 化 ， 其 中 的 唤醒 函数 为 pollwake。 等 待 节点 对 
象 来 自 于 内 核 ， 因 此 内 核 可 以 在 随后 的 poll freewait 函数 中 将 这 些 等 待 节点 清除 掉 。 


图 7-3 中 的 虚线 部 分 是 唤醒 操作 的 执行 路 径 ， 唤 醒 源 自 于 设备 驱动 程序 发 现 自己 设备 的 数据 
缓冲 区 已 经 可 以 使 用 。 图 中 虽然 以 ISR 来 展示 唤醒 操作 的 发 起 者 ， 然 而 在 实际 的 代码 中 ， 唤 
醒 函 数 的 发 起 者 可 能 来 自任 何 使 数据 就 绪 的 执行 路 径 。 不 管 怎样 ， 驱 动 程序 将 在 自己 管理 的 
等 待 队列 上 调用 前 面 提 到 的 wake_up 系列 函数 ， 这 将 导致 等 待 节点 中 的 pollwake 被 调用 : 


<fs/select.c> 


—o— o -— =F Fe ee een -TT — — wo — — — mom om geoc—o— KK ITI IIH eee eee KM ME — om CES eee Gs Gn ou. 0 OB o MD HD ee UE GEO RES ae ee et eee ee 0 a o 


static int pollwake(wait queue t *wait, unsigned mode, int sync, void *key) 


{ 
struct poll table entry “entry; 


entry — container of(wait, struct poll table entry, wait); 
if (key && !((unsigned long)key & entry->key)) 

return 0; 
retum — pollwake(wait, mode, sync, key); 
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唤醒 进程 的 操作 发 生 在 _pollwake 中 ， 在 那里 它 将 调用 try to. wake up 去 唤醒 进程 ， 虽 然 
目前 的 _pollwake 代码 在 实现 唤醒 时 有 点 不 够 顺畅 3, 但 框架 应 该 比较 清楚 ， 只 需要 找到 要 
唤醒 进程 的 task struct 对 象 的 指针 即 可 , 前 面 在 poll initwait 函数 中 看 到 , pwq->polling task 
保存 了 该 指针 ， 所 以 就 有 了 下 面 的 实现 方法 : 

struct poll wqueues *pwq = wait->private; 

task struct *p = pwq->polling task; 

try_to_wake_up(p...); 


最 后 一 名 tm to wake up 将 试图 唤醒 睡眠 在 poll, schedule timeoutO 上 的 进程 ， 这 将 导致 用 
户 态 程 序 从 select 等 API 函数 的 调用 中 返回 ， 或 者 是 因为 指定 的 时 间 到 期 ， 或 者 是 因为 文 
(HEIR TTS TUB AE IAT A Y. 


驱动 程序 的 poll AER TR v ee A eet, EA RAM, MA 
NLIS P SEER EP OLA ea, BEB eh. ix SEDE P LAHEY 
的 形式 存在 ， 内 核 为 此 定义 了 一 些 状态 位 ， 其 中 一 些 常 见 的 状态 定义 如 下 : 


<include/asm-generic/poll.h> 


天 


#define POLLIN 0x0001 
#define POLLPRI Ox0002 
#define POLLOUT 0x0004 
#define POLLERR 0x0008 
#define POLLHUP 0x0010 


#define POLLRDNORM 0x0040 
#define POLLWRNORM Ox0100 


POLLIN 

非 高 优先 级 的 数据 《〈 即 带 外 数据 out-of band) 可 以 被 无 阻塞 地 读 取 。 
POLLPRI 

高 优先 级 的 数据 〈 即 带 外 数据 out-of band) 可 以 被 无 阻塞 地 读 取 。 
POLLOUT 

数据 可 以 无 阻塞 地 写 入 。 
POLLERR 


设备 发 生 了 错误 。 


3 通过 一 个 dummy wait 节点 来 实现 唤醒 操作 ， 有 具体 的 原因 在 “poltwake BME PUR. 
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POLLHUP 

与 设备 的 链接 已 经 断 开 。 
POLLRDNORM 

正常 数据 可 以 无 阻塞 地 读 取 。 
POLLWRNORM 

正常 数据 可 以 无 阻塞 地 瑟 入 。 


更 多 这 方面 的 细节 读者 可 参考 : http://www.opengroup.org/onlinepubs/009695399/functions/ 
poll .html o 


全 此 就 讨论 完了 Linux 设备 驱动 程序 的 poll 例 程 的 实现 机 制 ， 为 了 加 深 读者 的 印象 ， 下 面 
给 出 一 个 驱动 程序 实现 的 poll 例 程 的 示例 : 


1/ 定义 一 个 用 于 读 取 的 等 待 队列 demo inq 
static DECLARE WAIT QUEUE HEAD(demo inq); 


1/38 2h E FF EM poll 例 程 

unsigned int demo poll (struct file * filp, struct poll table struct * wait) 

i 
struct demo_buf_list *list = filp->private_data; 
/初始 化 mask 为 0， 表 明 目 前 关于 设备 的 数据 的 状态 没有 发 生 任 何 变化 
unsigned int mask = 0; 


/调用 poll wait 将 来 自 内 核 中 的 一 个 等 待 节点 加 入 demo. inq 队列 
poll_wait(filp, &demo_ing, wait); 
/判断 缓冲 区 是 否 可 读 
if (list->head != list->tail) 
mask |= POLLIN | POLLRDNORM; 
return mask; 
} 


/设备 驱动 程序 实现 的 中 断 处 理 例 程 
irqreturn_t demo_isr(int irq, void * dev id) 
{ 


30 Roe LE, FA] wake up BH REDE poll 上 的 进程 
wake up interruptible(&demo inq); 


7.6 FF2DAFRAZE I/O 
字符 设备 驱动 程序 如 果 需 要 支持 设备 的 这 种 异步 非 阻塞 型 的 VO 操作 模式 ， 需 要 实现 
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file operations 对 象 中 的 aio read 和 aio write 方法 ， 这 两 个 方法 的 原型 为 ; 


<include/linux/fs.h> 


ssize_t(*aio write) (struct kiocb *, const struct iovec *, unsigned long, loff t); 


函数 的 第 一 个 参数 是 个 struct kiocb 类 型 的 指针 ， 用 来 封装 一 个 读 写 请 求 的 完整 上 下 文 ， 因 
为 其 结构 体 比较 复杂 ， 这 里 只 摘录 那些 与 异步 VO 实现 原理 密切 相关 的 成 员 : 


<include/linux/aio.h> 


pp ee ee a NÉS d, OA 


struct kiocb | 
struct file *ki filp; 
union | 
void — user *USET; 
struct task struct *tsk; 
} ki obj; 


unsigned short ki opcode; 


size t ki nbytes; /* copy of iocb->aio_nbytes */ 
char . user*ki buf, /* remaining iocb->aio_buf */ 
size t ki left; /* remaining bytes */ 


} 


上 面 列 出 的 数据 结构 struct kiocb 中 的 成 员 大体 上 可 以 分 成 三 部 分 ， 一 个 是 文件 相关 的 
ki_filp; 一 个 是 与 发 出 异步 VO 请 求 的 进程 相关 的 ki. obj; 还 有 一 个 是 与 当前 VO 请 求 本 身 
相关 数据 存储 空间 、 字 节 数 与 偏 移 量 等 的 一 些 成 员 。 


用 户 空间 使 用 异步 WO 有 两 种 方式 : 一 是 使 用 异步 VO 的 API 函数 , 比如 aio. read. aio. write 
和 aio error 等 ， 这 些 函 数 是 标准 的 POSIX 库 函 数 ; 二 是 使 用 Linux 的 系统 调用 ， 比 如 
io setup. io submit 和 io destroy 等 。 


鉴于 字符 类 设备 驱动 程序 支持 这 种 异步 VO 的 情况 非常 少见 ， 而 且 我 们 将 在 本 书 块 设备 驱 
动 程序 一 章 中 讨论 到 类 似 的 异步 VO 操作 的 细节 ， 虽 然 那里 的 讨论 与 字符 设备 相 比 会 有 些 
差异 ， 但 是 两 者 的 背后 的 设计 思想 有 不 少 相 似 之 处 ， 所 以 本 书 此 处 不 再 仔细 分 析 Linux 内 
核 关 于 AIO 的 实现 机 制 。 


7.7 ”驱动 程序 的 fsync 例 程 


fsync 用 来 同步 设备 的 写 入 操作 , 考虑 将 一 块 数据 写 入 到 U 盘 的 操作 , 如 果 使 用 write 函数 ， 
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函数 返回 后 只 能 保证 数据 被 写 入 到 驱动 程序 或 者 内 核 管理 的 数据 缓存 中 ， 而 无 法 保证 数据 
被 真正 写 入 到 U 盘 的 存储 块 里 。 但 是 fsync 可 以 做 到 这 一 点 ， 函 数 在 数据 没有 真正 写 到 U 
盘 的 存储 块 里 时 不 会 返回 ， 若 返回 则 意味 着 要 么 设备 在 写 入 过 程 中 发 生 错误 ， 要 么 数据 已 
经 写 入 到 了 设备 的 存储 块 中 。 


显然 大 量 的 工作 在 驱动 程序 这 边 ， 驱 动 程序 需要 针对 不 同 的 设备 实现 write 和 fsync 例 程 ， 
以 满足 上 层 应 用 程序 调用 两 者 时 所 期 望 的 语义 。 对 于 字符 设备 而 言 ， 大 部 分 驱动 程序 都 没 
有 实现 这 个 例 程 ， 只 是 简单 地 将 它们 的 struct file operations 对 象 的 fsync 指针 赋予 了 一 -个 
NULL 值 ， 而 对 于 菊 设 备 而 言 ， 总 是 使 用 通用 的 block fsync 函数 作为 fsyne 例 程 的 实现 。 


7.8 fasync 例 | 程 


本 节 讨 论 设备 驱动 程序 struct file_operations 的 另 一 个 例 程 fasync: 


int (*fasync) (int, struct file *, int); 


前 面 看 到 基于 驱动 程序 poll 例 程 之 上 的 应 用 层面 的 三 个 函数 poll. select 和 epoll， 它 们 在 
与 设备 驱动 程序 沟通 数据 是 否 就 绪 时 ， 本 质 上 是 采用 了 轮 询 的 方式 ， 应 用 程序 在 一 组 由 设 
备 文件 描述 符 的 集合 上 调用 poll， 由 此 获得 设备 可 否 进 行 无 阻塞 操作 的 信息 。 其 实 除 了 轮 
询 的 方式 ， 应 用 程序 与 设备 驱动 程序 的 沟通 还 有 一 种 类 似 中 断 的 方式 : 当 设 备 中 的 数据 就 
绪 时 ， 作 为 通知 的 方式 ， 设 备 驱 动 程序 会 给 应 用 程序 发 送 一 个 信和 号。 驱动 程序 对 这 种 模式 
的 支持 体现 在 其 struct file operations 对 象 的 fasync H, MEFA., 是 种 异步 的 操作 模式 。 


先 看 看 应 用 程序 怎么 操作 ， 然 后 再 考虑 驱动 程序 如 何 配合 。 应 用 程序 要 做 的 有 两 件 事 : 第 
一 步 , 通过 fentl 函数 的 F_SETOWN 命令 将 进程 的 ID 号 告诉 驱动 程序 , 这 样 当 驱动 程序 发 
现 人 设备 的 数据 就 绪 时 才 知 道 要 通知 哪个 进程 ， 第 二 步 ， 通 过 fentl 函数 的 F_SETFL 命令 设 
E FASYNC 标志 让 驱动 程序 启动 异步 通知 机 制 。 这 两 步 都 通过 fentl 函数 来 完成 ， 下 面 先 
简单 探讨 一 下 fentl 对 这 两 个 命令 的 内 部 处 理 流程 ， 然 后 青 过 渡 到 驱动 程序 那里 。 


fcntl 通过 系统 调用 sys_fentl 与 内 核 空间 交互 ， 后 者 的 核心 调用 是 do_fentl， 其 实现 框架 如 下 ; 


static long do_fentl(int fd, unsigned int cmd, unsigned long arg, 
struct file *filp) 
{ 
long err = -EINVAL; 


switch (cmd) { 
case F SETFL: 


err = setfl(fd, filp, arg); 
break; 
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case F SETOWN: 
err = f. setownifilp, arg, 1); 


) 


这 里 略 去 了 很 多 其 他 的 fent 命令 , 只 保留 了 跟 目 前 讨论 相关 的 F_ SETFL IF SETOWN 命 
令 。 这 两 个 命令 对 应 的 处 理 函 数 都 比较 直 白 , f setown 函数 将 要 通知 进程 的 ID 相关 的 信息 
记录 在 filp->f_owner 中 ， 驱 动 程序 方面 无 须 对 此 作出 回应 ，setfl 则 会 在 内 部 直接 调用 到 豫 
动 程序 提供 的 fasync 例 程 : 


<fs/fcntl.c> 
static int setfl(int fd, struct file * : filp, unsigned long arg) 
{ 


error = filp->f_op->fasync(fd, filp, (arg & FASYNC) ! 0); 
} 


了 解 了 应 用 程序 的 动作 ,下 面 开 始 讨论 驱 动 程序 如 何在 它 的 fasync 例 程 中 提供 相应 的 支持 。 
驱动 程序 在 其 fasync 例 程 中 需要 fasync_helper 和 kill fasync 两 个 函数 :前 者 主要 将 当前 要 
通知 的 进程 加 入 一 个 链表 或 者 从 链表 中 移 除 ， 这 取决 于 应 用 程序 调用 fentl MEARS 
FASYNC 标志 ; 而 kill fasync 则 在 设备 中 的 某 一 事件 发 生 时 负责 通知 链表 中 所 有 相关 的 进 
程 。 下 面 仔细 考察 这 两 个 函数 的 内 部 实现 机 制 。 


<fs/fentl.c> 


-TT 


int fasync | helper(int fd, struct file * filp, int on, struct fun. struct **fapp) 
i 
if (fon) 
return fasync remove entry(filp, fapp); 
retur fasync add entry(fd, filp, fapp); 
j 


AT HAMS MUR, MARKET int on 和 struct fasync. struct **fapp。 对 于 int on, TEBU 
面 刚 提 到 的 set 函数 中 ， 传 递 给 它 的 是 一 个 条 件 表达 式 (arg & FASYNC)!=0, AARE HN 
果 应 用 程序 在 调用 fentl 时 ， 对 于 F_SETFL 命令 使 用 的 参数 arg 设置 了 FASYNC， 那 么 (arg 
& FASYNC) != 0 结果 为 1， 所 以 fasync_helper 中 的 参数 on 3829 1, 这 表明 应 用 程序 正在 启 
用 驱动 程序 的 异步 通知 机 制 ， 反 之 ， 若 对 fent 函数 使 用 F_SETFL 命令 时 清除 了 FASYNC 
标志 ， 将 导致 驱动 程序 的 fasync 例 程 关闭 异步 通知 特性 。 


262 RA Linux 设备 驱动 程序 内 核 机 制 


所 以 fasync helper 的 主要 功能 是 维护 一 个 需要 通知 的 进程 链表 fapp, ORDA ERE hs BR 
得 异步 通知 的 能 力 ， 那 么 需要 通过 fentl 的 F_SETFL 命令 设置 FASYNC 标志 ， 如 果 设置 了 
该 标志 ， 驱 动 程序 的 fasync 例 程 在 调用 fasync helper 时 将 用 fasync add entry 将 需要 通知 
的 进程 加 入 到 驱动 程序 维护 的 -- 个 链表 中 ， 否 则 调用 fasync remove entry 将 其 从 链表 中 移 
除 。 


如 图 7-4 所 示 , 驱动 程序 为 实现 fasync 例 程 , 需要 维护 一 个 struct fasyne_struct 类 型 的 链表 ， 
链表 中 的 每 个 节点 对 象 代 表 着 一 个 需要 通知 的 进程 ， 进 程 的 ID 信息 存放 在 节点 对 秘 的 
fa file->f owner 中 。 在 链表 中 增加 节点 或 者 更 新 节点 的 操作 在 内 核 中 由 fasync_add_entry 
完成 ， 而 从 链表 中 删除 节点 则 由 fasync remove entry 函数 完成 。 图 中 展示 的 情景 是 有 两 个 
用 户 进程 需要 得 到 设备 驱动 程序 的 异步 通知 。 内 核 在 实现 fasync helper 函数 时 ， 对 一 个 新 
加 入 的 struct fasync struct 对 象 节 点 ，fasync helper 会 将 其 放 到 链表 的 头 部 ， 这 意味 着 后 调 
用 fentl(fd, F SETFL, FASYNC) 的 应 用 程序 反而 会 先 得 到 通知 。 


设备 驱动 程序 Struct fasync_struct struct fasync struct 


"d 
E 
n 

7 

I 
| | 

I 
i 
n 
, 
E 
d 





图 7-4 ”驱动 程序 用 fasync_ helper 维护 的 fasync struct 链表 


现在 , 驱动 程序 已 经 将 需要 通知 的 进程 所 在 节点 加 入 了 fasync XR. 当 需 要 的 条 件 满足 时 ， 
比如 进程 所 请 求 的 数据 已 经 就 绪 ， 驱 动 程序 需要 回 fasync 链表 中 的 每 个 等 待 通知 的 进程 发 
送 通知 信号 。 内 核 为 此 向 驱动 程序 提供 了 一 个 kil fasync 函数 ， 用 来 发 送 通知 信号。 
kill fasync Me XWF: 


void kill fasync(struct fasync struct **fp, int sig, int band) 
{ 
/* First a quick test without locking: usually 
* the list is empty. 
*/ 
if (*fp) ( 
rcu read lock(); 
kill fasync rcu(rcu dereference(*fp), sig, band); 
rcu read unlock(); 


) 
其 实质 性 的 操作 发 生 在 kill fasync rcu 函数 中 ， 后 者 的 实现 如 下 : 
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<fs/fentl.c> RS 
UU static void kill fasyne reu(tuct fasyne struct *fa, int sig, int band) 
while (fa) { 
struct fown struct *fown; 


unsigned long flags; 


if (fa->magic != FASYNC MAGIC) { 
printk(KERN ERR "kill fasync: bad magic number in " 
"fasync struct"); 
return; 
} 
spin lock irqsave(&fa-—fa lock, flags); 
if (fa->fa_file) { 

fown = &fa->fa_file->f_owner,; 

/* Don't send SIGURG to processes which have not set a 
queued signum: SIGURG has its own default signalling 
mechanism. */ 

if (!(sig = SIGURG && fown->signum == 0)) 

send_sigio(fown, fa->fa_fd, band); 
} 
spin_unlock_irqrestore(&fa->fa_lock, flags); 
fa = rcu_dereference(fa->fa_next); 


} 


函数 的 思想 很 明确 , 通过 while 循环 遍历 fasync 链表 , 对 每 个 进程 调用 send sigio 来 向 其 发 
送信 号 (SIGIO) 以 通知 进程 。 


现在 从 驱动 程序 的 角度 出 发 ， 总 结 一 下 对 fasync 例 程 的 支持 。 首 先 ， 驱 动 程序 需要 定义 一 
个 struct fasync_struct 类 型 的 指针 ， 当 用 户 态 程序 调用 fend 用 F_SETFL 命令 来 设置 或 者 清 
除 FASYNC 标志 时 , 驱动 程序 应 该 在 其 fasync 例 程 中 调用 内 核 提供 的 fasync_helper 函数 在 
struct fasync struct 指针 所 指向 的 链表 中 增加 或 者 删除 一 个 节点 ， 每 个 节点 代表 一 个 需要 通 
知 的 进程 。 其 次 ， 当 进程 所 需要 的 数据 就 绪 或 关注 的 某 个 事件 发 生 时 ， 驱 动 程序 负责 向 其 
维护 的 fasync struct 链表 中 的 每 个 进程 发 送 通 知 信号 ， 设 备 驱 动 程序 通过 调用 内 核 提供 的 
男 一 个 函数 kill fasync 来 完成 信号 发 送 任务 。 


下 面 用 一 个 具体 的 例子 来 展示 设备 驱动 程序 如 何 实现 fasyne 方法 ， 以 及 应 用 程序 如 何 得 到 
来 目 设备 驱动 程序 的 异步 通知 。 这 个 例子 同时 也 展示 了 sysfs 文件 系统 在 驱动 程序 中 的 用 
法 ， 以 及 通过 Linux 设备 模型 来 创建 设备 节点 及 其 他 一 些 特性 (这 个 看 起 来 很 简单 的 内 核 
模块 其 实体 现 了 设备 驱动 程序 中 一 些 比较 重要 且 典 型 的 特征 )。 


首先 是 设备 驱动 程序 的 代码 , 在 代码 中 , 我 们 将 Linux 设备 模型 中 的 一 些 概念 融入 其 中 (本 
PE 9 章 会 详细 讨论 Linux 的 设备 驱动 模型 ， 不 过 读者 可 以 在 这 里 先 热 热身 )， 这 样 我 们 可 
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以 动态 创建 一 个 设备 节点 而 无 须 再 手动 地 使 用 mknod 命令 , 同时 代码 中 还 创建 了 一 个 sysfs 
文件 接口 ， 这 使 得 我 们 可 以 直接 操控 设备 驱动 程序 中 的 一 些 数 据 而 不 必用 用 ioctl 的 方式 ， 
也 许 这 就 是 设备 驱动 模型 给 我 们 带 来 的 好 处 吧 。 


<fasync_demo.c> 


#include <linux/module.h> 
#include <linux/kernel.h> 
#include <linux/fs.h> 
#include <linux/cdev.h> 
#include <linux/device.h> 
#include <asm/signal.h> 
#include <asm/siginfo.h> 


static struct cdev *pedev; 
static dev_t ndev; 

static struct class *fa cls; 
static struct device *fadev; 


static unsigned long flag = 0; 
static struct fasync struct *sigio list; 


static ssize t read flag(struct device *dev, struct device attribute *attr, char *buf) 


{ 
size_t count = 0; 
count += sprintf(&buf[count], “Yolu\n", flag); 
return count; 

) 


static ssize t write flag(struct device *dev, struct device attribute *attr, 


const char *buf, size t count) 


{ 
flag = buf[0] - '0'; 
/给 所 有 以 FASYNC 标志 调用 fentl 的 应 用 程序 发 送信 号 
kill fasync(&sigio list, SIGIO, POLL. IN); 
return count; 
} 


static struct device attribute flag_attr = 
__ATTR(flag, S IRUGO|S IWUSR, read flag, write flag); 


static int fa open(struct inode *inode, struct file *flp) 


{ 
return 0; 


} 
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static int fa_asyne(int fd, struct file *filp, int onflag) 

{ 
// 特 项 要 通知 的 进程 加 入 sigio list 链表 或 者 从 链表 中 移 除 
return fasync helper(fd, filp, onflag, &sigio list); 


static struct file_operations ops = { 
owner = THIS MODULE, 
open = fa_open, 
fasync = fa async, 

h 


static int fa, init(void) 
{ 


int ret = 0: 


ret = alloc chrdev region(&ndev, 0, 1, "fa dev"); 
if(ret « 0) 


return ret; 


pedev = cdev alloc(); 

edev init(pedev, &ops); 
pedev->owner = THIS MODULE; 
edev_add(pcedev,ndev, 1); 


fa_cls=class_create(THIS_MODULE, "fa dev"); 
if(IS ERR(fa cls)) 
return PTR ERR(fa cls); 
fadev = device create(fa cls, NULL, ndev, NULL, "fa dev"); 
ifIS ERR(fadev)) 
return PTR ERR(fadev); 


/在 sysfs 文件 系统 中 创建 一 个 名 为 " flag "的 文件 
ret = device_create_file(fadev, &flag_attr); 


return ret; 


static void fa_exit(void) 

{ 
device remove file(fadev, &flag attr); 
device destroy(fa cls, ndev); 
class destroy(fa cls); 
cdev del(pcdev); 
unregister chrdev region(ndev, 1); 
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module init(fa init); 
module exit(fa exit); 


MODULE LICENSE("GPL"); 

MODULE AUTHOR("dennis chen (i AMDLinuxFGL"); 

MODULE DESCRIPTION("A simple character device driver to demo the implementation of fasync 
method"); 


程序 在 内 核 版 本 2.6.39 的 Linux 系统 上 编译 通过 。Makefile 如 下 : 


obj-m := fasync demo.o | 
KERNELDIR := /lib/modules/$(shell uname -rybuild 
PWD := $(shell pwd) 


default: 

$(MAKE) -C $(KERNELDIR) M=8(PWD) modules 
clean: 

rm -f *.o *.ko *.mod.* 


在 给 出 应 用 程序 的 代码 前 ， 不 妨 就 以 此 例 看 看 单纯 的 字符 设备 驱动 程序 和 加 入 了 设备 驱动 
模型 特性 之 间 的 关系 ， 虽 然 这 是 第 九 章 要 讨论 的 主题 ， 但 是 先 大 体 上 了 解 一 下 总 没有 错 ， 
不 感 兴趣 的 读者 也 可 以 直接 跳 过 ， 大 家 互 不 干涉 。 


可 以 看 到 ， 在 模块 初始 化 函数 fa init 中 ，edev add 调用 与 之 前 的 代码 就 是 所 谓 的 单纯 的 字 
符 设 备 驱 动 {也许 以 后 开源 社区 会 把 它 称 为 传统 的 设备 驱动 ), 很 明显 它 已 经 可 以 很 好 地 工 
作 了 ， 为 了 让 应 用 程序 可 以 使 用 到 它 提供 的 服务 ， 只 需 用 mknod 创建 一 个 字符 设备 文件 节 
点 就 可 以 了 【〔 这 是 本 书 第 二 章 的 内 容 )。 后 面 从 class create 开始 ， 实 际 上 是 在 原 有 的 设备 
驱动 基础 上 利用 设备 模型 的 概念 增加 了 一 些 新 的 特性 ， 它 使 得 我 们 的 设备 驱动 程序 可 以 向 
用 户 空间 提供 更 多 的 信息 ， 自 动 生 成 设备 节点 ， 以 及 更 便捷 地 在 用 户 空间 和 内 核 空间 传递 
数据 (通过 sysfs 文件 系统 )。Linux 设备 模型 的 内 核 架 构 开 发 者 们 的 工作 是 辛苦 的 【你 只 
2B SHR BZN object. kset. device 及 class 等 等 相关 代码 就 会 有 所 体验 )， 所 以 我 
们 应 该 理解 它 ， 和 驾驭 并 善 用 它 ， 使 之 为 我 们 服务 ， 才 不 会 率 旬 开源 社区 那些 辛勤 工作 的 开 
拓 5 者 们 ， 而 一 个 设计 低劣 的 内 核 模块 就 可 以 轻易 抹杀 掉 开 拓 者 们 的 杰出 的 工作 成 果 。 


回 到 正题 ， 接 下 来 是 这 个 例子 使 用 的 应 用 程序 代码 : 


i 


#include <stdio.h> 
#include <sys/types.h> 
#include <sys/stat.h> 
#include <fentl.h> 
#include <unistd.h> 
#include <signal.h> 
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#define DEVFILE “/dev/fa_dev" 
static unsigned long eflag = 1; 


static void sigio handler(int sigio) 


{ 
printf("Get the SIGIO signal, we exit the application!\n"), 
eflag = 0; 
} 
static int block_sigio(void) 
i 
sigset_t set, old; 
int ret; 
sigemptyset(&set); 
sigaddset(&set, SIGIO}; 
sigprocmask(SIG BLOCK, &set, &old); 
ret = sigismember(&old, SIGIO); 
return ret; 
H 
static void unblock sigio(int blocked) 
{ 
sigset t set; 
if(!blocked){ 
sigemptyset(d&set); 
sigaddset(&set, SIGIO); 
sigprocmask(SIG_UNBLOCK, &set, NULL): 
} 
] 
int main(void) 
i 
int fd; 
struct sigaction sigact, oldact; 
int oflag: 
int blocked; 


blocked = block sigio(); 


sigemptyset(&sigact.sa_ mask); 
sigaddset(&sigact.sa mask, SIGIO); 
sigact.sa flags — 0; 

sigact.sa handler-sigio handler; 
if(sigaction(SIGIO, &sigact, &oldact) < 0){ 
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printf("sigaction failed!\n"); 
unblock_sigio(blocked); 
return -1; 


} 
unblock_sigio(blocked); 


fd = open(DEVFILE, O_RDWR); 
if(fd >= 0){ 
fentl(fd, F SETOWN, getpid()); 
oflag = fentl(fd, F GETFLY 
fentl(fd, F SETFL, oflag | FASYNC); 
printf("Do everything you want until we get a signal... n"); 
^ while(eflag); 
close(fd); 
} 


return 0; 
j 


现在 用 insmod 把 fasync. demo.ko 模块 加 入 系统 , 在 模块 成 功 加 入 后 ,可 以 发 现在 /dev 目录 
下 生成 了 一 个 字符 设备 文件 但 dev: 


root@AMDLinuxFGL:/home/dennis/Linux/book/chap07/fasyne/driver# ls -l/dev/fa dev 
crw-rw---- ] root root 249, 0 Jun 15 02:04 /dev/fa dev 


IF] T e ZE/sys/devices/virtual/fa dev/fa dev 目录 下 发 现 一 个 名 为 flag 的 文件 ， 它 是 设备 驱动 
程序 在 模块 初始 化 函数 中 通过 调用 device create file(fadev, &flag attr) 生 成 的 : 


root(@AMDLinuxF GL:/sys/devices/virtual/fa_dev/fa_dev$ Is -I flag 
-rw-r--r-- | root root 4096 Jun 15 02:13 flag 


因为 在 代码 中 为 flag 文件 实现 了 读 写 操作 ， 所 以 可 以 通过 该 文件 来 改写 设备 驱动 程序 中 的 
flag 变量 : 


root(a)A MDLinuxFGL :/sys/devices/virtual/fa dev/fa dev$ cat flag 
Ü 


因为 驱动 程序 将 flag 变量 初始 化 为 0, 所 以 此 处 显示 flag 的 值 为 0, 现在 可 以 通过 下 面 的 命 
令 将 flag 的 值 改 为 5: 


root@AMDLinuxFGL:/sys/devices/virtual/fa_dev/fa_dev# echo '5' > flag 
root(a)JA MDLinuxFGL :/sys/devices/virtual/fa dev/fa dev$ cat flag 
5 
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可 以 看 到 flag 的 值 已 经 变 成 了 5。 在 代码 中 ， 除 了 改 flag 的 值 外 ，write flag 函数 还 会 调用 
kill fasync 函数 给 应 用 程序 发 送信 号。 


现在 可 以 运行 应 用 程序 main T: 


root@AMDLinuxF GL:/home/dennis/Linux/book/chap07/fasync/app# ./main 
Do everything you want until we get a signal... 


应 用 程序 将 停 在 此 处 (代码 中 的 while 循环 那里 )， 现 在 用 echo '5' > flag 的 方式 来 模拟 设备 
驱动 程序 的 数据 就 绪 或 者 其 他 应 用 程序 感 兴趣 的 事情 ， 以 此 来 通知 应 用 程序 ， 


root(@AMDLinuxF GL: /sys/devices/virtual/fa_dev/fa_dev# echo '5' > flag 
此 时 会 发 现 main 程序 将 退出 : 


root@AMDLinuxF GL:/home/dennis/Linux/book/chap07/fasync/app# ./main 
Do everything you want until we get a signal... 

Get the SIGIO signal, we exit the application! 
root(@AMDLinuxFGL:/home/dennis/Linux/book/chap07/fasync/app# 


7.90 llseek 例 | 程 


驱动 程序 中 的 llseek 例 程 的 原型 声明 为 ; 


loff t (*Ilseek) (struct file *, loff t, int); 


如 果 了 解 从 应 用 层 到 内 核 层 关 于 llseek 相关 操作 的 整个 流程 ， 在 驱动 程序 中 实现 llseek 的 
例 程 本 身 并 不 困难 。 所 以 还 是 从 系统 调用 开始 看 起 ， 读 者 不 要 泪 丧 ， 这 个 过 程 看 起 来 并 不 
像 想 象 中 那么 烦 融和 无 聊 。l]seek 的 系统 调用 为 ; 


<fs/read-write.c> 


mE a E a a a E a 


SYSCALL_DEFINE3(lseek, unsigned int, fd, off ` t, offset, unsigned int, origin) 
{ 

off t retval; 

struct file * file; 

int fput needed; 


retval = -EBADF; 
file = fget light(fd, &fput needed); 
if (!file) 

goto bad; 


retval = -EINVAL; 
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if (origin <= SEEK_ MAX) { 

loff t res = vfs_llseek(file, offset, origin); 

retval = res; 

if (res != (loff t)retval) 

retval = -EOVERFLOW, /* LFS: should only happen on 32 bit platforms */ 
} 
fput_light(file, fput needed); 
bad: 

retum retval; 


} 


函数 中 需要 关注 的 地 方 一 个 是 if (origin <= SEEK_MAX)4h, PLA BEA EHH lseek 时 ， 
对 于 origin 参数 只 有 三 个 选择 ， 如 下 : 
OS 
#define SEEK SET 0 /* seek relative to beginning of file */ 
define SEEK CUR | /* seek relative to current file position */ 


#define SEEK END 2 /* seek relative to end of file */ 
define SEEK MAX SEEK END 


所 以 这 里 的 检查 就 是 要 确保 origin 参数 的 有 效 性 。 函 数 另 外 一 个 地 方 就 是 检查 完 origin $ 
数 之 后 开始 调用 vfs_llseek: 


<fs/read-write.c> 
loff t vfs Ilseek(struct file *file, loff t offset, int origin) 
| 
loff t (*fn)(struct file *, loff t, int); 
fn = na llseek; 
if (file->f mode & FMODE LSEEK) | 
fn = default llseek; 
if (file->f op && file->f_op->llseek) 
fn = file->f_op->llseek; 
} 
return fn(file, offset, origin); 
} 


这 个 函数 需要 关注 的 是 函数 指针 fn 的 赋值 ，fn 在 函数 中 有 三 个 可 能 的 值 ，no_llseek、 

default llseek 和 驱动 程序 提供 的 llseek 例 程 〈file->f op->llseek)。 如 果 file->f mode 中 的 
FMODE_LSEEK 标志 没有 设置 ， 那 么 应 用 程序 调用 的 lseek 最 终 调 用 的 是 no_llseek， 该 函 
数 直 接 返 回 一 个 错误 码 -ESPIPE。 因 为 设备 文件 上 的 open 操作 默认 是 设置 FMODE LSEEK 
标志 的 ， 所 以 如 果 驱 动 程序 提供 了 llseek 例 程 ， 那 么 将 调用 它 ， 否 则 将 调用 系统 默认 的 
default llseek 函数 ， 该 函数 通过 修改 filp->f_pos 来 达到 定位 文件 的 目的 。 如 果 调 用 到 设备 
驱动 程序 提供 的 llseek 例 程 ， 那 么 在 该 例 程 中 ， 驱 动 程序 需要 根据 用 户 传 入 的 偏 移 值 off 
和 调整 的 起 始 位 置 参 数 来 决定 如 何 定 位 文件 , 下面 是 一 个 实际 的 设备 驱动 程序 实现 的 llseek 
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文件 定位 例 程 : 


static loff t vol cdev liseek(struct file *file, loff t offset, int origin) 
{ 

struct ubi volume desc *desc = file->private_data; 

struct ubi volume *vol = desc->vol; 

loff t new offset; 


if (vol->updating) { 
return -EBUSY; 
} 


switch (origin) { 
case 0: /+ SEEK. SET */ 
new offset — offset; 
break; 
case 1: /* SEEK CUR */ 
new offset = file->f pos + offset; 
break; 
case 2: /* SEEK END */ 
new offset = vol->used_bytes + offset; 
break; 
default: 
return -EINVAL; 
} 


if (new offset < 0 || new offset vol->used bytes) { 
dbg err("bad seek %lld", new offset); 
return -EINVAL; 

} 


file->f_pos = new offset; 
return new offset; 
} 


在 实际 当中 ， 有 些 设备 的 定位 是 没有 意义 的 ， 比 如 所 谓 的 流 式 设备 ， 其 中 的 数据 如 同 水 流 
一 样 。 这 类 设备 的 驱动 程序 不 应 该 提供 llseek 例 程 ， 同 时 也 不 希望 使 用 内 核 提 供 的 默认 的 
default_llseek， 却 么 可 以 在 打开 这 类 设备 时 调用 nonseekable open 来 关闭 FMODE LSEEK 
标志 。nonseekable_open 的 定义 为 : 


和 


int nonseekable_open(struct inode *inode, struct file *filp) 

{ 
filp-^f mode &= -(FMODE LSEEK | FMODE PREAD | FMODE PWRITE); 
return 0; 
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7.10 ”访问 权能 


有 时 候 驱 动 程序 需要 检查 一 个 正 试图 访问 它 的 进程 是 否 有 权限 做 某 些 事情 ， 这 里 不 妨 把 进 
程 是 否 有 权限 使 用 驱动 程序 提供 的 服务 的 能 力 称 为 权能 , 此 时 驱动 程序 可 以 用 capable 这 个 
国 数 。 这 跟 文 件 系统 层面 的 权限 检查 不 同 , 可 以 认为 驱动 程序 内 部 进行 的 capable 操作 是 一 
种 粒度 更 细 的 权限 检查 ， 只 有 当 试 图 访问 它 的 进程 有 足够 的 权限 操作 设备 文件 后 ， 驱 动 程 
序 晶 身 的 这 种 权限 检 僵 才 会 介入 ,否则 进程 将 直接 被 挡 在 文件 系统 的 外 围 ， 连 设备 文件 的 
XISBIRAEN, Wu XEMESI. 


<kernel/capability.c> 


int capable(int cap) 
{ 


if (unlikely(!cap valid(cap))) { 
printk(KERN CRIT "capable() called with invalid cap=%u\n", cap); 
BUG(; 

} 


if (security_capable(cap) == 0) { 
current->flags |= PF_SUPERPRIV; 
return 1; 
} 
return 0; 
} 


参数 cap 用 来 指定 对 当前 进程 进行 检查 的 权能 数值 , 内 核 在 include/linux/capability.h 中 总 共 


定义 了 33 个 权能 数值 。 函 数 中 的 cap_valid 用 来 检查 cap 所 表示 的 权能 值 是 否 在 内 核 事先 
定义 的 权限 范围 之 内 。 


真正 的 权能 检查 发 生 在 security capable 函数 中 ， 其 定义 为 ; 


<include/linux/security.h> 


AO EORR rr 


static inline int security capable(int cap) 
{ 


i 


return cap_capable(current, current_cred(), cap, SECURITY CAP AUDIT); 
} 


HRAJE current_cred() 用 来 获得 当前 进程 的 一 个 权能 证 书 ， 展 开 就 是 current->cred。 如 果 
将 整个 cap capable 函数 的 调用 链 全 部 展开 ， 那 么 它 看 起 来 如 下 ， 


<security/commoncap.c> 


ee wi um mr a ee ee n 


int cap_capable(struct task_struct *tsk, const struct cred *cred, int cap, 
int audit) 


人 
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int tmp; 
tmp =((cred->cap_effective).cap[CAP_TO_INDEX(cap)] & CAP_TO_MASK(cap)); 
return tmp? 0 : -EPERM; 

} 


PR pp AS dp ERE AA BE WE PAY cap effective 成 员 ， 以 确定 进程 是 否 具 有 参数 cap 中 指 
定 的 权能 ， 如 果 进 程 具 有 指定 的 权能 ， 它 将 返回 0， 返 回 一 直 错 误 码 -EPERM。 有 所 以 当 晴 数 
返回 到 capable 那里 ， 我 们 知道 如 果 进 程 具 有 指定 的 权能 ， 那 么 函数 将 在 当前 进程 的 flags 
上 设置 PF SUPERPRIV 标志 着 一 个 超级 用 户 的 身份 : current->flags |= PF_SUPERPRIV, [Al 
时 返回 1; 如 果 进 程 不 具有 指定 的 权能 ， 那么 函数 返回 0。 当 驱动 程序 发 现 当前 进程 不 具有 
进一步 操作 的 权限 时 ， 常 常 返回 一 个 错误 码 -EPERM， 如 下 所 示 : | 


if ('capable(CAP NET ADMIN)) 
return -EPERM; 


711 本 章 小 结 


本 章 讨论 了 struct file operations 操作 中 的 大 部 分 函数 的 实现 ， 其 中 字符 型 设备 驱动 程序 最 
常用 的 是 ioctl 例 程 。 通过 设备 驱动 程序 的 ioctl 例 程 的 实现 , 应 用 程序 可 以 与 驱动 程序 实现 
数据 的 交互 ， 实 际 当中 这 些 数据 量 多 半 比 较 少 ， 常 常用 来 作为 控制 设备 操作 模式 的 一 种 方 
Ax. 


除 此 之 外 还 重点 讨论 了 字符 设备 的 poll 和 fasync 操作 。 前 者 可 以 让 应 用 程序 通过 select 等 
API 睡眠 等 待 在 一 组 世上 , 当前 的 字符 设备 驱动 程序 所 在 的 设备 节点 就 对 应 其 中 的 一 个 fd. 
进程 醒 来 的 条 件 是 ， 或 者 指定 时 间 到 期 ， 或 者 fd_set 中 的 某 一 fd 就 绕 。 字 符 设 备 在 实现 自 
CLE] poll 例 程 时 ， 需 要 维护 一 个 自己 的 等 待 队 列 ， 将 来 自 内 核 的 等 待 节 点 通过 poll wait 加 
入 到 自己 的 等 竺 队列 上 ， 当 数据 就 绪 时 唤醒 等 待 队 列 上 的 进程 ， 这 使 得 应 用 程序 的 select 
函数 返回 。 


fasync 用 来 实现 一 个 异步 通知 机 制 ， 用 户 程序 通过 fent] 函数 来 向 设备 驱动 程序 表明 是 否 希 
望 在 某 一 事件 出 现时 得 到 通知 。 设 备 驱 动 程序 在 实现 fasync 例 程 时 主要 依赖 两 个 内 核 提供 
的 函数 : fasync helper 和 kill fasync， 前 者 将 需要 通知 的 进程 加 入 一 个 链表 ， 后 者 在 应 用 程 
序 关注 的 事件 发 生 时 通过 信号 发 送 的 方式 来 通知 应 用 程序 。 


TE 


时 间 管 理 


设备 驱动 程序 需要 对 时 间 进 行 操作 ， 典 型 的 可 以 分 为 两 大 类 : 延 时 与 定时 。 前 者 是 在 两 个 
连续 的 动作 A 与 B 之 间 插 入 一 段 时 间 空 白 ,也 即 在 动作 A 执行 后 需要 等 待 若干 时 间 才 能 执 
行动 作 B， 至 于 在 这 段 时 间 空 白 内 ， 当 前 处 理 嚣 也许 是 进入 忙 等 待 状态 ， 也 许 是 切换 到 一 
个 新 进程 上 。 后 者 是 在 一 个 指定 的 时 间 点 到 达 后 执行 某 些 动 作 ， 轮 询 是 其 最 典型 的 应 用 。 


本 章 将 讨论 这 两 类 时 间 上 的 操作 的 技术 细节 ， 设 备 驱动 程序 员 在 掌握 了 这 些 幕后 的 技术 之 
后 可 以 更 好 地 理解 设备 驱动 是 如 何 对 时 间 进 行 掌控 的 ， 当 程序 中 需要 对 时 间 进行 管理 时 先 
择 最 合适 的 解决 方案 。 


8.1 jiffies 


内 核 源 代码 中 几乎 到 处 充斥 着 jiffies 这 样 的 变量 ， 作 为 设备 驱动 程序 员 对 此 想必 也 一 定 不 
会 陌生 ， 在 某 些 书 中 它 被 形象 地 称 为 “时 钟 滴答 ”。 内 核 源 码 中 针对 32 位 和 64 位 系统 分 别 
定义 了 jiffies 和 jiffies_64: 


<include/linux/jiffies.h> 

Hdefine jiffy data ^ attribute ((section(".data"))) 
extern u64  jiffy data jiffies 64; 

extern unsigned long volatile — jiffy data jiffies; 


其 中 的 _jiffy_data 表明 这 两 个 变量 将 出 现在 内 核 最 终 映 像 的 ".data" 区 中 ， 另 外 在 头 文 件 中 
在 一 个 变量 的 声明 前 使 用 了 “exterm ”关键 字 , 提示 了 这 个 变量 可 能 定义 在 某 个 列 的 文件 中 ， 
事实 上 它们 出 现在 内 核 的 链接 脚本 文件 vmlinux.lds 中 。 除 了 数据 位 宽 不 一 样 外 ， 上 述 两 个 
变量 在 原理 上 是 一 样 的 。 为 了 叙述 的 方便 ， 下 面 只 提 jiffies， 本 节 稍 后 会 给 出 两 者 在 操作 上 
的 一 些 细微 的 区 别 。 


通常 jiffies 在 Linux 系统 启动 引导 阶段 被 初始 化 为 0， 当 系统 完成 了 对 时 钟 中 断 1 的 初始 化 
1 基于 x86 体系 架构 的 Linux 系统 中 产生 时 钟 中 断 的 硬件 典型 的 有 可 编程 中 断 计数 器 PIT (Programmable Interrupt Timer) 


8253 和 高 级 可 编程 中 断 控制 器 APIC (Advanced Programmable Interrupt Controller)， 后 者 的 分 辩 率 及 稳定 性 都 要 比 前 
者 好 得 和 多， 用 来 实现 商 分 辩 率 的 时 间 源 。 
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之 后 ， 在 每 个 时 钟 中 断 〈“ 时 钟 滴答 ”) 处 理 例 程 中 该 值 都 会 被 加 1， 如 图 8-1 Hr: 
时 钟 中 断 


jn 1| 


= 一 — j 
aes n m2 n*3 


图 8-1 每 隔 1/HZ fb jiffies 的 值 增 1 


因此 该 值 储 存 了 系统 目 最 近 一 次 启动 以 来 的 时 钟 滴答 数 。 在 形式 上 ， 它 跟 我 们 日 常 所 熟悉 
的 时 分 秒 这 样 的 时 间 概 念 有 很 大 的 不 同 ， 不 过 对 于 设备 驱动 程序 而 言 ， 出 于 时 间 管 理 的 需 
要 ， 使 用 jiffies 就 已 经 还 够 ， 因 为 它 其 少 用 这 种 时 间 形 式 与 应 用 程序 进行 沟通 。 除 了 时 钟 
中 断 处 理 例 程 中 对 jiffies 进行 更 新 外 ， 其 他 任何 模块 《驱动 程序 当然 也 不 例外 ) 都 只 是 读 
取 该 值 以 获得 当前 时 钟 计数 。 


在 实际 使 用 jiffies 时 ， 还 需要 了 解 Linux 内 核 中 男 一 个 与 时 钟 中 断 息 息 相 关 的 宏 HZ， 它 用 
来 表示 系统 中 时 钟 中 断 发 生 的 频率 ; 


<include/asm-generic/param.h> 


- -r e= mc 和 E - domo 4A o3 oom ET 


#ifdef KERNEL - 
# define HZ CONFIG HZ /* Internal kernel timer frequency */ 


# define USER HZ 100 /* some user interfaces are */ 
# define CLOCKS PER SEC (USER HZ) /* in "ticks" like times() */ 
#endif 


从 上 述 的 定义 可 以 看 出 , 内 核 提供 了 在 配置 阶段 通过 CONFIG HZ 修改 HZ 数值 的 可 能 性 ， 
但 绝 大 多 数 情 况 下 都 没有 必要 修改 它 ， 使 用 内 核 默 认 的 值 1000 就 足够 了 。 事 实 上 
CONFIG HZ 并 未 出 现在 内 核 的 配置 菜单 选项 中 ， 而 是 就 在 内 核 源码 根 目录 下 的 .config 文 
{FP HZ 值 为 1000 意味 着 系统 1 秒 内 要 发 生 1000 次 时 钟 中 断 , 也 就 是 说 每 隔 1 毫秒 ,jiffies 
的 值 就 会 增加 1。 所 以 ， 如果 了 驱动 程序 使 用 jiffies 来 对 时 间 进 行 度量 的 话 ， 其 精度 只 能 局 限 
在 毫秒 级 别 上 ， 更 高 精度 的 时 间 管 理 单纯 使 用 jiffies 无 法 满足 要 求 。 


相对 于 jiffies 而 言 ，jiffies_64 是 个 64 位 的 变量 (即便 是 在 32 位 的 体系 架构 上 也 是 一 样 ， 

此 时 它 是 一 个 unsigned long long 型 的 变量 ， 通 过 组 合 两 个 unsigned long 型 变量 得 到 )， 在 
64 位 平台 上 ， 它 们 其 实 是 同一 个 变量 ， 而 在 32 位 平台 上 ，jiffies 和 jiffies 64 的 低 32 位 是 
重合 的 。 之 所 以 引入 jiffies 64， 是 考虑 到 了 32 位 变量 jiffies 的 溢出 问题 ， 在 HZ=1000 的 
情况 下 ， 大 约 50 天 就 会 导致 jiffies 溢出 。 对 于 驱动 程序 中 的 时 间 度 量 而 言 ， 这 并 不 是 个 大 
问题 (但 是 在 作 时 间 比 较 的 时 候 仍 然 需要 小 心 处 理 )， 不 过 现实 中 显然 要 考虑 某 些 系统 2 有 
需要 知道 自 系统 最 近 一 次 运行 以 来 真正 的 时 钟 滴答 数 的 需求 ， 因 此 Linux 内 核 中 同时 引入 


2 比如 对 某 些 特殊 的 服务 器 而 言 ， 它 们 启动 一 次 运行 的 时 间 也 许 足够 久 ， 以 至 于 如 到 发 生 了 jiffies HR. 
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了 jiffies_64 来 记录 系统 的 时 钟 计 数 。 为 了 保证 jiffies 和 jiffies_64 两 个 变量 无 论 在 32 位 还 
是 64 位 平台 上 在 记录 时 钟 滴答 数 时 的 一 臻 性， 内核 通 过 链接 脚本 做 了 些 手脚 ， 有 兴趣 的 读 
者 可 以 阅读 一 下 链接 内 核 时 所 使 用 的 链接 脚本 vmlinux.lds， 可 发 现 类 似 下 面 的 内 容 ; 


#ifdef CONFIG X86 32 
OUTPUT ARCH(i386) 

jiffies = jiffies 64; 

#else 
OUTPUT_ARCH(i386:x86-64) 
jiffies 64 = jiffies; 

#endif 


如 果 要 在 32 位 系统 上 读 取 jiffies 64 的 值 ， 必 须 使 用 get jiffies 64 函数 ， 因 为 在 直接 读 取 
jiffies_64 的 高 32 位 或 者 低 32 位 时 ， 对 应 的 低 32 位 或 者 高 32 位 可 能 已 经 发 生 更 新 。 
get jiffies 64 函数 使 用 顺序 锁 的 方式 来 保证 对 jiffies 64 变量 读 取 操作 的 原子 性 : 


«kernel/time.c» 
"if (BITS PER LONG < 64) 
u64 get jiffies 64(void) 
{ 
unsigned long seq; 
u64 ret; 


do { 
seq — read segbegin(&xtime lock); 
ret = jiffies 64; 
} while (read seqretry(&xtime lock, seq)); 
return ret; 
} 


#endif 
从 设备 驱动 程序 的 角度 出 发 ， 仅 仅 使 用 jiffies 变量 就 已 足够 满足 所 有 基于 jiffies 的 时 间 度 
量 任务 ， 所 以 本 章 接 下 来 的 部 分 将 主要 以 jiffies 为 讨论 对 象 。 


由 于 jiffies 在 内 核 源码 中 作为 一 个 全 局 性 变量 被 导出 ， 所 以 如 果 驱 动 程序 中 需要 读 取 当前 
的 jiffies 值 ， 只 需 在 源码 中 包含 涉 文件 linux/jiffies.h 即 可 ， 比 如 下 面 的 代码 片段 ， 


#include <linux/jiffies.h> 
unsigned long j, timestamp_1, timestamp 2; 


j= jiffies; / 读 取 当 前 的 时 钟 计 数值 
timestamp 1 = jiffies + 2 * HZ; //timestamp 1 为 未 来 的 2 秒 
timestamp 2 = jiffies + 3 * HZ /1000; //timestamp 2 为 未 来 的 3 BH 


Linux 设备 驱动 程序 中 使 用 jiffies 的 几 个 常用 的 场景 分 别 有 时 间 比 较 、 时 间 转 换 以 及 设置 定 
时 器 Ctimer) 时 对 未 来 时 间 的 设 定 ， 本 节 先 讨论 前 两 个 话题 ， 后 一 个 话题 将 在 稍 后 的 系统 
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定时 器 一 节 中 予以 讨论 。 


8.1.4 时 间 比 较 


设备 驱动 程序 有 时 候 需 要 对 程序 执行 过 程 中 的 两 个 时 间 点 进行 比较 ， 以 确定 时 间 点 之 间 的 
先后 次 序 。 因 为 jiffies 在 每 次 的 时 钟 中 斯 处 理 例 程 中 都 会 被 更 新 ， 因 此 可 以 通过 两 次 时 间 
点 所 对 应 的 jiffies 值 来 进行 判断 。 如 果 没 有 前 面 提 到 的 jiffies 值 洲 出 的 问题 ， 那 么 这 种 判 
断 的 逻辑 非常 简单 ,但 是 因为 溢出 的 可 能 性 是 存在 的 ， 所 以 程序 应 该 并 慎 处 理 。 好 在 Linux 
内 核 为 此 提供 了 一 组 用 以 判断 时 间 点 先后 顺序 的 宏 ， 通 过 特定 的 技巧 非常 安全 地 处 理 了 
jiffies 值 洲 出 的 情况 ， 程 序 中 可 以 放心 使 用 。 这 组 宏 为 : 


time after(a, b) 

n RU [SI gx a 在 时 间 点 b 之 后 ， 该 宏 返 回 true. 
time before(a, b) 

SORA TAL a TERT IB] EX b 之前， 读 宏 返回 true. 
time after eq(a, b) 

该 宏 类 似 于 time_after， 但 是 在 a 和 b 两 个 时 间 点 相等 时 ， 该 宏 也 返回 true. 
time before eq(a, b) 

该 宏 类 似 于 time_before， 但 是 在 a 和 两 个 时 间 点 相等 时 ， 该 宏 也 返回 true. 
time in range(a, b, c) 


该 宏 用 来 检查 时 间 点 a 是 否 包 含 在 时 间 间 隔 [b, ce] 内 ， 因 为 检查 包含 边界 ， 所 以 当 a 等 
Tb ch, OE ARI tue. 


在 使 用 以 上 宏 时 ， 参 数 a 和 hb 都 应 该 是 unsigned long 型 变量 。 如 果 是 针对 jiffies 64 类 型 来 
作 这 种 时 间 顺 序 的 判断 ， 那 么 除了 time in range "EZ ^l, RACE mm LIAR 64 即 
可 ， 例 如 time_after64， 不 过 设备 驱动 程序 中 使 用 64 位 的 情形 极其 罕见 。 


因此 ， 设 备 驱 动 程序 中 不 应 该 直接 使 用 jiffies 的 值 来 作 时 间 点 先后 顺序 的 比较 ， 而 应 该 使 
用 内 核 提供 的 上 述 宏 来 完成 。 下 面 给 出 一 个 具体 的 例子 ， 假 设 驱 动 程序 的 某 个 函数 
demo function 需要 调用 比如 do time task 函数 来 完成 一 个 任务 ， 但 是 对 任务 完成 的 时 间 有 
特定 的 要 求 (比如 要 在 2 上 毫秒 之 内 完成 )， 如 果 在 规定 的 时 间 内 没有 完成 ， 就 需要 调用 
task timeout 函数 来 处 理 ， 和 否则 demo function 函数 就 算 顺 利 完成 。 如 果 使 用 下 面 的 代码 将 
是 不 安全 的 : 


int demo_function() 
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unsigned long timeout = jiffies + 2 * HZ / 1000; // 设 定 超时 的 时 间 为 2 BH 


do time task(); /调用 do time task 3k ZR X — ££ 47 
if (timeout « jiffies) /根据 当前 最 新 的 jiffies 值 来 判断 是 否 超时 

return task timeout(); Wdo_time_task() 完 成 时 间 超 过 了 2 毫秒 ， 调 用 超时 处 理 函 数 
return 0; 


} 


因为 存在 jiffies 洲 出 环绕 的 可 能 性 ， 所 以 上 述 的 这 语句 中 timeout < jiffies 条 件 在 超时 的 情 
况 下 也 可 能 返回 false( 比 如 计算 出 的 timeout 值 本 身 己 经 接近 jiffies 溢出 环绕 的 临界 点 时 )。 
正确 的 代码 应 该 是 : 


int demo function() 


{ 
unsigned long timeout = jiffies + 2 * HZ / 1000; // 设 定 超时 的 时 间 为 2 毫秒 


do time task); 1 调用 do time task 来 完成 某 一 任务 
if (time_after(jiffies, timeout)) /根据 当前 最 新 的 jiffies 值 来 判断 是 和 否 超时 

return task timeout(); //do time task0 完 成 时 间 超 过 了 2 毫秒， 调用 超时 处 理 函 数 
return 0); 


8.1.2 时 间 转 换 


有 有 时候， 设备 驱动 程序 可 能 需要 将 用 jiffies 表达 的 时 间 间 隔 转 化 成 毫秒 ms 或 者 是 微 秒 us 
的 形式 ， 这 种 情况 大 多 出 现在 需要 将 时 钟 滴答 这 种 形式 转化 成 人 类 易于 理解 的 ms 或 者 是 
us 这 样 的 时 间 形 式 下 , 比如 为 了 在 驱动 程序 中 打印 出 一 次 DMA 传输 所 花费 的 时 间 , ZE DMA 
传输 开始 前 记录 start_jiffies = jiffies， 然 后 进行 DMA 传输 ， 在 DMA 传输 结束 后 记录 下 
end jiffies = jiffies ， 这 样本 次 的 DMA 传输 所 花费 的 时 间 将 为 time = 
jiffies to msecs(end jiffies - start jiffies), 1X time 的 单位 将 会 是 ms. 


Linux 内 核 源码 为 此 提供 了 一 组 相关 的 转换 函数 : 


«include/linux/jiffies.h- 


unsigned int jiffies to msecs(const unsigned long j); 
unsigned int jiffies to usecs(const unsigned long j); 
unsigned long msecs to jiffies(const unsigned int m); 
unsigned long usecs to jiffies(const unsigned int u); 


Mixer A BT da 4 EOLA UL EE AE M ATO C BRE, WRK. BI BIER BE SS 
一 种 情形 发 生 在 用 户 态 程序 和 设备 驱动 程序 的 交互 上 ， 应 用 程序 员 更 多 地 使 用 秒 以 及 毫秒 
等 时 间 形 式 。 此 种 情形 下 ， 内 核定 义 了 struct timeval 和 struct timespec 两 种 数据 结构 ;: 


«include/linux/time.h» 
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. kernel time t tv sec; /* seconds */ 
long tv nsec; /* nanoseconds */ 


HF 


struct timeval { 
__ kernel time t tv sec; /* seconds */ 
. kernel suseconds t tv usec; /* microseconds */ 
h 
可 见 timespec 用 秒 和 纳 秒 来 描述 时 间 , 而 timeval 则 采用 秒 和 毫秒 的 形式 。 内 核 同 样 提供 了 
jiffies 变量 和 这 两 个 数据 结构 的 实例 间 相 互 转换 的 函数 : 


<include/linux/jiffies.h> 


unsigned long timespec_to_jiffies(const struct timespec * value); 

void jiffies to timespec(const unsigned long jiffies, struct timespec *value); 
unsigned long timeval to jiffies(const struct timeval *value); 

void jiffies to timeval(const unsigned long jiffies, struct timeval *value); 


这 些 图 数 的 用 法 也 是 很 明显 的 。 


到 目前 为 止 ， 已 经 讨论 了 基于 jiffies 的 时 间 度 量 的 方法 ， 鉴 于 jiffies 自身 精度 的 局 限 性 ， 
如 果 需 要 使 用 更 高 精度 的 时 间 度 量 方法 ， 也 许 要 借助 于 某 些 体系 架构 特定 的 计时 寄存 器 ， 
例如 很 有 名 的 时 间 惟 计数 器 TSC (Time Stamp Counter)， 但 是 使 用 这 些 寄存 器 的 程序 代码 
将 失去 在 不 同 平台 之 间 的 可 移植 性 。 因 为 用 jiffies 来 衡量 一 个 时 间 间 隔 在 绝 大 多 数 的 情况 
下 已 经 足以 满足 需要 ， 所 以 本 书 将 不 再 讨论 其 他 的 时 间 度 量 方法 。 


8.2 ERATI E 


设备 驱动 程序 中 延 时 操作 的 常见 应 用 场景 是 ， 当 CPU 通过 外 部 设备 的 寄存 器 对 设备 发 出 
指令 时 ， 外 设 执行 相应 的 动作 ， 在 该 动作 完成 之 后 通过 更 新 比如 状态 寄存 器 来 告 之 本 次 
操作 的 执行 结 朱 ，CPU 需要 读 取 该 状态 寄存 器 的 值 来 获得 设备 的 执行 结果 。 因 为 CPU 的 
速度 很 快 ， 而 外 部 设备 可 能 需要 一 定 的 时 间 才 能 完成 本 次 操作 ， 如 果 CPU 在 写 完 寄存 器 
后 直接 读 取 设备 的 状态 寄存 器 ， 那 么 很 有 可 能 得 到 错误 的 结果 (设备 尚未 完成 指定 的 操 
作 ， 因 而 还 没有 更 新 状态 寄存 器 )， 所 以 CPU 在 对 外 设 发 出 操作 指令 后 ， 需 要 延 时 一 段 
时 间 以 等 待 设备 操作 的 完成 。 这 种 情形 在 设备 驱动 程序 中 一 个 简单 而 典型 的 代码 执行 序 
列 应 该 是 : 
001 write command reg(...); CPU 写 外 设 的 寄存 器 以 发 起 一 个 操作 指令 


002 delay(...); W 延 时 操作 ， 等 待 设备 操作 完成 。 它 的 实现 机 制 是 本 节 要 讨论 的 主题 
003 read_status_reg(.…); —//CPU 读 外 设 的 寄存 器 以 获得 设备 执行 结果 


上 述 序列 的 第 2 行 执 行 的 就 是 一 个 延 时 操作 ， 因 为 它 的 存在 使 得 第 3 行 的 指令 向 后 推迟 了 
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一 段 时 间 才 被 执行 到 , 这 使 得 外 部 设备 有 足够 的 时 间 3 来 完成 当前 的 操作 并 将 执行 结果 更 新 
到 状态 寄存 器 中 。 下 面 讨论 设备 驱动 程序 如 何 实 现 delay eh 2t VASE BART H BY Te] 0638 


从 实现 延 时 精度 的 角度 出 发 ， 可 以 将 延迟 函数 分 成 两 大 类 : 一 类 是 基于 时 钟 滴答 jiffies 实 
现 的 延 返 ， 因 为 这 类 延迟 的 时 间 粒 度 一 般 在 坚 秒 ms 级 别 ， 所 以 被 称 为 “长 延 时 ”， 另 一 类 
的 延 时 精度 已 经 超越 了 时 钟 滴答 的 边界 ， 比 如 微 秒 us 和 纳 秒 ns 级 的 延迟 ， 显 然 单纯 依靠 
jiffies 已 经 无 法 满足 要 求 ， 此 时 需要 有 另外 的 实现 机 制 ， 也 就 是 所 谓 的 “ 短 延 时 ”函数 。 下 
面 先 从 长 延 时 开始 讨论 。 


8.2.1 长 延 时 


基于 时 钟 滴 管 jiffies 的 长 延 时 函数 有 几 种 实现 方法 ， 主 要 围绕 在 延迟 实现 过 程 中 是 否 让 出 
处 理 器 来 展开 ， 在 具体 的 实现 上 分 为 “ 忙 等 待 ” 和 “让 出 处 理 器 ”两 大 类 。 


Q 忙 等 待 


用 忙 等 竺 来 实现 延 时 是 最 简单 的 。 虽 然 因为 忙 等 待 的 关系 其 执行 效率 饱 受 诉 病 ， 但 是 不 得 
不 承认 在 设备 驱动 程序 早期 的 开发 调试 阶段 这 是 一 种 很 简便 的 手法 来 判断 设备 是 否 能 像 预 
期 的 那样 工作 。 


最 简单 的 忙 等 待 实现 是 用 while 或 者 其 他 的 什么 循环 ， 比 如 ; 


unsigned long t = OxFFFFFF; 
while(t--); 


这 是 种 相当 粗糙 的 实现 延 时 操作 的 原始 方法 ， 现 实 当中 的 程序 员 也 许 迫切 想 获得 某 种 延迟 
效果 而 义 不 想 稍微 用 点 脑力 去 寻求 更 好 的 解决 方案 时 ， 上 面 的 代码 就 会 出 现 。 因 为 它 的 缺 
点 是 如 此 明显 ， 所 以 它 显 然 不 应 该 出 现在 最 终 发 布 出 去 的 软件 版 本 中 。 


其 实 完 全 可 以 利用 jiffies 来 实现 一 种 比较 理想 的 忙 等 待 延 时 策略 ， 而 且 相 对 前 面 的 那 种 忙 
等 待 ， 这 种 方法 对 延 时 的 长 短 也 有 很 好 的 控制 ， 比 如 为 了 实现 1 s 的 等 待 ， 可 以 使 用 下 面 
的 方法 : 

unsigned long | = jiffies + HZ; 


while(time_before(jiffies, j)) 
cpu relax(); 


上 面 的 这 段 延 时 代码 看 起 来 已 经 很 像 那么 回 事 了 , 除了 利用 time. before 和 jiffies 来 实现 1s 
延 时 的 控制 , 还 在 while 循环 体 中 加 入 了 对 epu relax 函数 的 调用 。 显然 cpu relax 的 实现 不 


3 设备 驱动 程序 员 也 许 要 根据 外 部 设备 的 data sheet 等 操作 规范 文档 来 评估 - -个 操作 带 要 花费 多 少时 间 , 在 获得 这 个 数据 
后 才 可 能 精确 地 设 定 后 续 delay 操作 需要 延迟 的 时 间 宽 度 ， 
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会 导致 当前 代码 让 出 处 理 器 ， 否 则 就 不 能 称 为 忙 等 待 了 4。cpu relax 是 个 平台 相关 的 函数 ， 
在 x86 架构 上 ， 其 核心 指令 是 NOP， 也 就 是 空 指令 ， 


<arch/x86/include/asm/processor.h> 


/* REP NOP (PAUSE) is a good thing to insert into busy-wait loops. */ 
static inline void rep nop(void) 
i 

asm volatile("rep; nop" ::: "memory"); 


} 


static inline void cpu_relax(void) 
{ 

rep_nop(); 
} 


其 他 平台 上 ， 比 如 ARM, cpu relax 的 实现 可 能 是 一 个 内 存 屏 障 类 的 函数 调用 : 


reremen uNES ETETEN NATA rA 8 M UE Lo ck RS ho da e 4m mo dm mmm ooo omo o o om momo n 


"if LINUX ARM ARCH  ——6 


和 


#define cpu_relax() smp_mb() 
Helse 

#define cpu_relax() barrier() 
Kendif 


无 论 如 何 ， 这 段 代码 实现 背后 的 原理 还 是 非常 直 白 的 ， 其 缺陷 也 同样 很 直 白 : 


C1) 基本 上 在 这 1 s 的 延迟 时 间 段 内 进入 忙 等 待 的 CPU 做 不 了 任何 事情 ， 对 于 当前 的 高 速 
CPU 而 言 ， 这 种 资源 的 浪费 是 很 可 观 的 。 而 且 对 于 单 CPU 系统 来 说 ， 如 果 不 幸 在 进入 这 
段 忙 等 待 的 代码 前 关闭 了 CPU 的 中 断 ， 那 么 jiffies 的 值 将 不 会 被 更 新 ，while 循环 的 条 件 
将 一 直 满 足 ， 这 种 情况 下 除了 重启 系统 似乎 没有 更 好 的 解决 方法 。 


(2) 对 于 一 个 可 抢占 式 的 系统 而 言 ， 上 面 的 忙 等 待 代码 有 可 能 在 某 次 中 断 的 过 程 中 被 抢占 ， 
比如 , 进程 A 在 等 待 外 设 的 数据 时 进入 了 睡眠 状态 , 此 时 调度 器 调度 进程 B 到 当前 的 CPU 
上 运行 ， 假 设 进程 B 怡 好 执行 的 就 是 上 述 的 忙 等 待 代码 ， 如 果 在 延迟 时 间 段 尚未 结束 时 ， 
进程 A 因 外 设 数据 的 就 绪 被 唤醒 并 且 调度 优先 级 高 于 进程 B, 那么 A 将 被 重新 调度 到 当前 
处 理 占 上 运行 ， 如 果 A 再 次 被 调度 后 连续 运行 的 时 间 超 过 了 1 s 352.24 B 被 再 次 调度 运 
行 时 ，while 中 的 条 件 显然 已 经 不 再 满足 ， 此 时 延 时 的 目的 虽然 是 达到 了 , 但 是 延迟 的 时 间 
并 不 是 当初 设 定 的 1s， 而 可 能 是 比如 1.5 s 等 。 


4 至 于 这 段 忙 等 待 代 码 在 执行 过 程 中 是 否 会 让 出 当前 处 理 器 ， 要 看 内 核 是 否 配置 启用 了 可 抢占 性 。 在 1s 的 时 间 里 ， 这 
个 while 循环 体 在 执行 过 程 中 会 出 现 大 量 的 时 钟 中 断 ， 如 果 内 核 不 可 抢占 ， 那 么 运行 在 内 核 态 的 这 个 忙 等 待 代码 不 会 
产生 新 的 调度 点 ， 因 此 所 占有 的 处 理 器 不 会 被 强制 剥夺 。 但 对 于 可 抢占 式 内 核 而 言 ， 如 果 有 更 高 优先 级 的 任务 就 绪 ， 
则 它 可 能 会 被 调度 出 处 理 器 。 
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上 述 的 问题 2 对 于 驱动 程序 来 说 并 不 是 什么 大 的 问题 ， 即 便 是 在 后 面 讨 论 的 一 些 改进 型 的 
延迟 实现 中 也 同样 存在 . 如 果 没 有 CPU 资源 的 浪费 ， 那 么 即便 延迟 函数 造成 了 预 设 延 迟 时 
间 段 的 延伸 ， 对 设备 驱动 的 性 能 而 言 也 不 会 有 实质 性 的 影响 ， 而 对 这 个 问题 的 根本 性 解决 
也 许 要 先 及 对 调度 种 的 改进 ， 这 对 于 延 时 精度 本 来 就 要 求 不 融 的 长 延迟 函数 而 言 ， 没 有 充 
是 的 理由 。 而 对 问题 1 的 改进 则 导致 了 “让 出 处 理 器 ”解决 方案 的 出 现 。 

O 让 出 处 理 器 


在 忙 等 待 的 实现 中 ， 处 于 忙 等 待 中 的 代码 一 直 占 用 处 理 器 会 导致 系统 性 能 降低 ， 于 是 一 种 
改进 的 方案 是 : 当代 人 码 进 入 到 while 循环 时 ， 不 再 调用 cpu_relax() 函 数 而 是 调用 schedule() 
调度 函数 以 让 出 处 理 器 ， 这 样 就 解决 了 忙 等 待 一 直 浪 费 处 理 器 的 刺 端 。 比 如 下 面 的 代码 ; 

unsigned long j = jiffies + HZ; 

while(time before(jiffies, j)) 

schedule(); 

APPA AAR TE BU DESPITE SE RK EU T Eia H CPU 的 问题 , 但 还 不 是 最 佳 的 解决 方 
案 ， 因 为 主动 调用 schedule(0) 函 数 的 进程 虽然 可 以 让 出 处 理 器 ， 但 依然 在 当前 CPU 的 运行 
队列 中 。 这 使 得 在 空闲 的 系统 中 无 法 进入 idle 状态 ， 因 为 即便 CPU 的 运行 队列 中 只 有 当前 
一 个 进程 ， 它 也 会 陷 人 让 出 处 理 器 之 后 马上 又 被 调度 运行 ， 然 后 再 让 出 处 理 器 这 样 的 怪圈 
中 。 无 法 进入 idle 状态 对 系统 的 电源 管理 模块 来 说 不 是 件 好 事情 ， 因 为 有 些 智能 化 的 电源 
管理 模块 可 以 根据 当前 CPU 的 负载 情况 来 决定 是 否 改 变 CPU 的 运行 频率 ， 频 率 的 改变 与 
CPU 供电 电压 的 改变 是 息息相关 的 。CPU 的 idle 状态 可 以 被 电源 管理 模块 所 利用 ， 如 果 后 
者 发 现 CPU 进入 了 idle 状态 ,可 以 降低 CPU 的 核心 频率 从 而 降低 整 机 的 能 耗 , 这 在 以 ARM 
为 主 的 峰 入 式 平台 上 尤为 常见 。 
当然 ， 相 对 于 一 直 占 用 CPU 资源 的 忙 等 待 ， 这 种 方法 提升 了 CPU 资源 的 利用 率 ， 使 得 当 
前 进程 在 延迟 等 待 期 间 CPU 可 以 运行 其 他 的 进程 。 另 外 要 提 的 一 点 是 ， 进 程 在 调用 
schedule0O 图 数 让 出 处 理 器 后 ， 并 不 能 保证 可 以 很 快 再 次 获得 处 理 器 ， 其 再 次 获得 处 理 器 的 
时 间 间 隔 取 决 于 当前 处 理 器 运行 队列 中 进程 的 数量 ， 以 及 这 些 进程 与 延迟 等 待 进程 的 调度 
优先 级 。 换言之 ， 问 题 2 中 盖 述 的 预 设 延 迟 时 间 段 延伸 的 问题 依然 存在 。 


上 面 提 到 的 采用 schedule0 函 数 的 解决 方法 之 所 以 还 不 是 最 佳 的 ， 其 根本 原因 在 于 调用 
schedule() 函 数 的 进程 依然 处 于 CPU 的 运行 队列 中 。 为 了 解决 这 个 问题 , 此 时 应 该 能 想到 内 
核 提 供 的 另外 一 种 可 供 设备 驱动 程序 使 用 的 调度 类 的 基础 设施 ，schedule timeout。 所 以 ， 
如 果 一 个 延迟 1 s 的 函数 可 以 用 下 面 的 这 样 一 个 简单 的 代码 段 来 实现 : 

delay 1s 门 


{ 
set current state(TASK UNINTERRUPTIB LE)S: 


S 此 处 当然 可 以 使 用 TASK_INTERRUPTIBLE 等 进程 状态 标志 , 不 过 需要 小 心 处 理 在 延迟 时 间 到 达 之 前 进程 被 信号 等 中 
断 的 可 能 。 为 了 便于 叙述 ， 接 下 来 的 文字 中 统一 使 用 TASK_UNINTERRUPTIBLE 标志 。 
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schedule_timeout(jiffies + HZ); 
I 


上 面 这 段 代码 之 所 以 可 以 解决 直接 采用 schedule(O 国 数 所 带 来 的 负面 问题 , 主要 在 于 在 调用 
schedule timeout 之 前 先 调 用 了 set current state ZH 3 BU Xt E HW] KA Kh HA 
TASK _ UNINTERRUPTIBLE， 这 样 当 随后 的 schedule timeout 函数 被 调用 时 ， 后 者 的 内 部 
实现 中 调用 了 schedule) 函数 ， 因 为 当前 进程 之 前 的 状态 已 经 被 设置 为 
TASK_UNINTERRUPTIBLE， 所 以 在 schedule 函数 中 当前 进程 将 会 被 移出 处 理 器 的 运行 队 
列 ， 因 此 也 就 解决 了 采用 直接 调用 schedule 函数 那 种 方案 所 带 来 的 不 利 影响 。 也 许 有 读者 
会 问 ， 在 早先 的 那个 直接 调用 schedule 函数 的 方案 前 调用 一 下 set current state(TASK - 
UNINTERRUPTIBLE) 9 n] LASS 7 Bu ip Fe E tiae f BA Suma? 比如 ; 

unsigned long ] = jiffies + HZ; 

while(time_before(jiffies, j)){ 

set current state( TASK UNINTERRUPTIBLE); 


schedule(); 
} 


ERR AN ARPS SCRE ARE, BAAR OO ERE AE MAB ZA Bj ER. T. RETE schedule() 函 数 
前 使 用 set current stat(TASK UNINTERRUPTIBLE), [ISA uf EJ ff gi it fg cb Fl BE fiz 
行 队列 中 称 开 ， 但 它 此 后 将 肯 也 没有 机 会 被 调度 ， 因 为 不 会 再 有 别 的 代码 去 更 改 其 状态 使 
其 可 以 再 次 进入 运行 队列 ， 这 与 使 用 等 待 队 列 和 调用 schedule timeout 完全 不 同 。 如 果 使 用 
了 等 竺 队列 ， 那 么 我 们 知道 等 待 队列 中 的 睡眠 进程 有 被 唤醒 一 说 ， 关 于 这 点 ， 本 书 前 面 的 
章节 已 经 讨论 过 。 如 果 使 用 schedule timeout， 当 前 进程 从 运行 队列 移 走 之 后 将 被 记录 到 定 
时 器 的 数据 节点 中 ， 当 定时 器 的 时 间 到 期 后 ， 将 会 唤醒 该 进程 使 其 重新 进入 运行 队列 。 这 
里 不 妨 通 过 内 核 中 schedule timeout 实现 的 一 些 关 键 代 码 ， 来 看 一 看 此 处 蕴藏 的 秘密 ， 


«kernel/timer.c» 


1 ma aom m oss Go mo mo om omo o Ne ee cem ud ms 


signed long — sched schedule timeout(signed long timeout) 


í 
struct timer list timer; 
unsigned long expire; 


expire = timeout + jiffies; 


setup timer on stack(&timer, process timeout, (unsigned long)current); 
. mod timer(&timer, expire, false, TIMER NOT PINNED); 
schedule(); 

del singleshot timer sync(&timer); 


/* Remove the timer from the object tracker */ 
destroy timer on stack(&timer); 
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} 


函数 的 主要 职能 是 在 调用 schedule() 函 数 前 实现 了 一 个 定时 器 ， 关于 定时 器 ,本 章 后 续 的 内 
容 将 很 快 讨论 到 它 ， 此 处 只 要 记 住 当 expire 指定 的 时 钟 滴答 到 期 时 ， setup timer on stack 
国 数 调用 中 的 第 二 个 参数 process timeout 会 被 调用 到 ， 同 时 注意 到 指向 当前 进程 的 current 
指针 作为 第 三 个 实 参 传 给 了 setup timer on stack 函数 , 这样 在 process timeout 函数 被 调用 
时 将 会 获得 当前 进程 的 指针 ， 我 们 很 容易 猜 出 process timeout 函数 要 做 的 事情 ， 当 定时 器 
到 期 时 ， 它 被 调用 以 唤醒 current 进程 


<kernel/timer.c> 


TT 


{ 
wake up process((struct task struct *) data); 


} 
它 是 如 此 简单 明了 ， 所 以 不 需要 在 这 上 面 浪费 过 多 的 文字 。 


现在 我 们 已 经 看 到 , 使 用 schedule timeout 可 以 确保 在 指定 的 延迟 时 间 到 期 时 进程 可 以 重新 
获得 调度 的 机 会 , 因为 结合 了 对 set_current_state(TASK_UNINTERRUPTIBLE) 的 一 起 使 用 ， 
使 得 进程 在 指定 的 延 时 时 间 段 内 不 会 出 现在 运行 队列 中 ， 这 就 很 好 地 解决 了 单纯 调用 
schedule 函数 所 带 来 的 问题 。 需 要 提醒 一 下 的 是 ， 当 定时 器 到 期 时 ， 虽 然 process timeout 
将 进程 重新 放 入 了 处 理 器 的 运行 队列 ， 但 是 它 何 时 被 调度 依然 无 法 给 出 精确 的 时 间 点 (这 
取决 于 调度 器 )。 换 言 之 ， 预 定 的 延迟 时 间 段 的 延伸 在 这 里 同样 是 个 无 法 回避 的 问题 。 如 果 
在 调用 schedule timeout 前 没有 使 用 set current state 来 将 当前 进程 的 状态 改 为 
TASK_UNINTERRUPTIBLE， 那 么 效果 等 同 于 直接 调用 schedule 函数 ， 除 了 已 经 讨论 过 的 
不 利 因素 外 ,使 用 schedule timeout 并 不 会 带 来 额外 的 麻烦 。 从 内 核 的 角度 ， 试 图 唤醒 一 个 
已 经 处 于 运行 队列 中 的 进程 并 不 会 造成 多 少 困 惑 和 工作 量 ， 好 奇 的 读者 可 以 看 看 
wake up process 的 代码 实现 在 这 种 情况 下 是 如 何 处 理 的 。 


事实 上 ，Linux 内 核 还 提供 了 一 个 基于 上 述 schedule timeout 版 本 的 实现 毫秒 级 睡眠 的 函数 


msleep: 


<kernel/timer.c> 


a a O S 


void msleep(unsigned int msecs) 


{ 


Se ee Lol ee ee - - err tee o oA Rod — - — — mou aa d o- ou onm 


unsigned long timeout = msecs to jiffies(msecs) + 1; 


while (timeout) 
timeout = schedule timeout uninterruptible(timeout); 


} 


schedule timeout uninterruptible 的 内 部 实现 其 实 就 使 用 了 _ set current state 和 
schedule_timeout: 
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signed long — sched schedule_timeout_uninterruptible(signed long timeout) 


{ 
. Set current state(TASK UNINTERRUPTIBLE); 


return schedule timeout(timeout); 


} 


注意 到 set current state(TASK _ UNINTERRUPTIBLE) 将 当前 进程 的 状态 设置 为 不 可 中 断 
的 TASK_UNINTERRUPTIBLE, 这 样 将 可 以 确保 进程 将 至 少 休 眠 用 参数 msecs 指定 的 时 间 。 
内 核 中 还 提供 了 msleep 的 一 个 变 体 msleep_interruptible: 


<kernel/timer.c> | 
unsigned long msleep interruptible(unsigned int msecs) 
{ 
unsigned long timeout = msecs to jiffies(msecs) + 1; 
while (timeout && !signal pending(current)) 
timeout = schedule timeout interruptible(timeout); 
return jiffies to msecs(timeout); 
} 


相对 于 msleep EE, msleep_interruptible 图 数 内 部 通过 schedule timeout interruptible 在 当前 
进程 睡眠 之 前 设置 其 状态 为 TASK_INTERRUPTIBLE， 这 样 睡眠 的 进程 将 处 于 “可 中 断 的 睡 
眠 ”这 样 的 状态 ， 如 果 在 msecs 指定 的 延迟 时 间 到 期 之 前 ， 进 程 因 为 接收 到 了 信和 号 而 被 唤醒 ， 
while 循环 中 的 signal pending(current) 将 返回 true, ARA schedule timeout interruptible 将 返回 
原先 指定 的 休眠 时 间 msecs 的 剩余 时 间 值 ， 这 意味 着 msleep_interruptible 将 无 法 保证 进程 一 
定 会 在 指定 的 延迟 时 间 过 后 醒 来 。 通 常情 况 下 msleep interruptible 都 会 返回 0， 意 味 着 进程 
完整 地 休眠 了 msecs 指定 的 时 间 值 。 


所 以 在 “让 出 处 理 器 ”实现 长 延 时 的 方案 中 ， 直 接 调用 内 核 提 供 的 msleep 类 的 函数 是 最 简 
单 最 方便 的 一 种 方式 了 。 


现在 可 以 简单 总 结 一 下 “让 出 处 理 器 ”这 种 延 时 方案 的 实现 了 ， 通 过 对 直接 单纯 调用 
schedule 方案 的 改进 ， 我 们 获得 了 一 个 相对 比较 理想 的 解决 方案 : 在 等 待 延迟 的 时 间 段 内 ， 
进程 并 不 会 占用 处 理 器 ， 因 而 也 就 不 会 影响 处 理 器 进入 idle 状态 ， 相 对 于 忙 等 待 而 言 ， 这 
无 疑 是 个 很 大 的 优势 。 说 它 相 对 比较 理想 ， 是 因为 它 依然 存在 着 延 时 精度 的 问题 ， 不 过 这 
毕竟 是 系统 内 核 的 限制 ， 不 是 我 们 的 设备 驱动 程序 做 不 到 。 另 外 要 强调 的 是 ， 到 目前 为 止 
所 有 延迟 的 实现 都 是 基于 时 钟 滴答 ， 因 为 它 的 实现 机 制导 致 了 它 在 度量 粒度 上 的 固有 限制 
(所 以 被 称 为 “长 延 时 ”7)， 所 以 如 果 需 要 实现 粒度 更 细 的 延 时 ， 比 如 微 秒 甚至 纳 秒 级 ， 就 需 
要 采用 其 他 的 方法 了 ， 这 正 是 下 一 他“ 短 延 时 ”所 要 讨论 的 问题 。 


8.2.2 短 延 时 
有 时 候 设 备 驱 动 程序 需要 更 短 的 延 时 ， 比 如 微 秒 甚 至 纳 秒 级 的 延迟 ， 这 种 量 级 的 时 延 有 时 
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候 被 通俗 地 称 为 “ 短 延 时 ” 形象 地 说 明了 在 延迟 粒度 上 与 长 延 时 的 区 别 。 基 于 下 面 的 两 个 
事实 ， 这 种 量 级 延迟 的 实现 已 经 不 可 能 也 不 必要 像 前 面 讨 论 “ 长 延 时 ”那样 直接 用 时 钟 滴 
答 jiffies 来 实现 : 


(OD 假设 在 通常 的 HZ=1000 的 系统 上 ，1 秒 钟 内 jiffies 增加 的 数量 为 HZ， 也 就 是 说 jiffies 
的 值 每 隔 1 毫秒 才 会 增加 1. 这 意味 着 根据 前 后 时 间 点 的 jiffies 值 米 度量 时 间 宽 度 的 话 , 其 
分 辨 率 最 多 也 只 能 达到 毫秒 级 。 所 以 在 这 种 情况 下 ， 要 实现 微 秒 级 的 延迟 ,单纯 通过 jiffies 
的 差 值 已 经 不 可 能 完成 。 


(2) 在 微 秘 级 的 水 平 上 ， 必 须要 考虑 到 进程 切换 所 带 来 的 时 间 开 销 ， 因 为 进程 切换 所 耗费 
的 时 间 大 约 就 在 几 个 微 秒 到 上 百 个 微 秒 之 间 。 这 种 情况 下 ， 如 果 像 “长 延 时 ”中 “让 出 处 
理 器 ”那样 实现 延迟 ， 很 有 可 能 在 进程 切换 的 时 候 延 迟 的 时 间 就 到 了 。 所 以 “ 短 延 时 ”一 
般 都 是 基于 忙 等 待 来 实现 。 


Linux 内 核 提供 了 毫秒 、 微 秒 和 纳 秒 级 的 延迟 实现 ; 


<include/linux/delay.h> 


a ee ee 


void mdelay(unsigned long msecs); 
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void udelay(unsigned long usecs); 
void ndelay(unsigned long nsecs); 


这 些 延 迟 的 实现 都 是 基于 忙 等 待 ， 其 中 最 基础 的 一 个 宏 是 udelay， 另 外 两 个 宏 都 是 通过 宏 
udelay 来 实现 自身 功能 。udelay 的 实现 方法 与 体系 架构 相关 。 在 讨论 上 述 函数 的 实现 时 ， 
一 个 很 重要 的 变量 是 loops per _jiffy， 用 来 表示 在 一 个 完整 的 jiffies 时 间 段 内 运行 一 个 内 部 
循环 的 次 数 ， 只 要 知道 了 该 值 就 能 计算 出 比如 1 us 循环 的 次 数 ， 这 样 通过 在 一 个 循环 中 对 
该 循环 次 数 递 减 就 可 以 在 1 us 的 时 间 到 期 时 退出 循环 ， 从 而 实现 1 us 的 延 时 ， 这 就 是 短 延 
时 函数 实现 的 基本 原理 。 当 然 如 果 特 定 的 体系 架构 上 有 更 精确 的 硬件 计数 器 ， 比 如 TSC, 
则 利用 它们 来 实现 短 延 时 要 更 精确 、 更 容易 。 当 然 这 样 的 实现 方式 是 以 牺牲 跨 平 台 的 可 移 
植 性 为 代价 的 。Linux 内 核 有 几 种 方法 可 以 获得 该 loops_per jiffy 值 ， 因 为 和 驱动 程序 关系 
不 大 ， 所 以 此 处 不 再 详细 讨论 。 


8.3 ”内 核定 时 器 
内 核定 时 器 是 设备 驱动 程序 中 经 常 要 用 到 的 另 一 个 重要 的 内 核 设施 。 如 果 驱 动 程序 希望 在 


将 来 某 个 可 度量 的 时 间 点 到 期 后 ， 由 内 核 安排 执行 某 项 任务 (此 处 的 任务 通常 是 驱动 程序 
自身 定义 的 某 个 函数 ， 接 下 来 的 叙述 中 称 之 为 定时 器 函数 }， 便 可 以 使 用 定时 器 来 完成 。 


6 这 里 只 是 给 出 了 大 约 的 量 级 ， 精 确 测量 Linux 内 核 中 发 生 一 次 进程 切换 的 开销 不 是 一 忻 简单 的 事情 。 
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设备 驱动 程序 中 对 内 核定 时 器 的 一 个 典型 使 用 场景 是 用 它 来 实现 轮 询 机 制 ， 因 为 定时 器 函 
数目 号 可 以 重新 局 用 它 所 在 的 定时 器 ， 所 以 在 一 个 时 间 段 到 期 后 ， 定 时 器 函数 被 调用 ， 在 
函数 内 部 因为 又 重新 启用 了 该 定时 器 ， 这 样 便 形 成 了 一 个 不 断 循 环 的 定时 器 函数 被 系统 调 
用 的 模式 。 此 种 情形 下 ， 如 果 设 备 驱动 程序 需要 周期 性 地 检查 设备 的 某 种 操作 状态 ， 便 可 
以 在 定时 器 函数 中 来 完成 。 


驱动 程序 等 内 核 模块 如 果 要 使 用 定时 器 ， 首 先 应 该 定义 一 个 定时 器 类 型 的 变量 struct 
timer list 是 内 核 提 供 的 一 个 用 来 表示 定时 器 的 数据 结构 ， 其 定义 如 下 《〈 删 去 了 一 些 用 于 调 
试 及 统计 信息 的 成 员 ); 


struct timer list { 

[* 
* All fields that change during normal runtime grouped to the 
* same cacheline 
T 

struct list head entry; 

unsigned long expires; 

struct tvec base *base; 


void (*function)(unsigned long); 
unsigned long data; 


int slack; 


h 
其 中 在 驱动 程序 中 常用 的 是 以 下 三 个 成 员 : 
unsigned long expires 
指定 定时 右 的 到 期 时 间 。 
void (*function)(unsigned long) 
定时 器 函数 。 当 expires 中 指定 的 时 间 到 期 时 ， 该 函数 将 被 触发 。 
unsigned long data 


定时 器 对 象 中 携带 的 数据 。 通 常 的 用 途 是 ， 当 定时 器 函数 被 调用 时 ， 内 核 将 把 该 成 员 
作为 实际 参数 传递 给 定时 器 函数 。 之 所 以 要 这 样 做 ， 是 因为 定时 器 函数 将 在 中 断 上 下 文中 
执行 ， 而 非 当 前 进程 的 地 址 空间 中 。 


其 他 的 一 些 成 员 将 主要 由 内 核 使 用 ， 用 以 实现 定时 器 的 内 核 机 制 ， 在 后 面 会 看 到 这 些 成 员 
的 用 法 。 


为 了 让 读者 对 驱动 程序 使 用 内 核定 时 器 有 个 直观 的 印象 ， 接 下 来 将 先 给 出 一 段 示 例 代码 ， 
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然后 再 对 其 中 一 些 关 键 函 数 的 使 用 及 其 内 核实 现 机 制 进行 分 节 讨 论 。 下 面 的 代码 展示 本 一 
个 设备 驱动 程序 通过 使 用 内 核定 时 器 来 轮 询 设 备 状态 。 


struct device regs *devreg = NULL; // 定 义 一 个 用 于 表示 设备 寄存 器 的 结构 体 指 针 
struct timer_list demo timer; /定义 一 个 内 核定 时 器 对 象 


ff 

/定义 定时 器 函数 ， 当 定时 器 对 象 demo timer 中 expires 成 员 指 定 的 时 间 到 期 后 ， 该 函数 将 
/被 调用 

if 

static void demo_timer_func (unsigned long data) 


{ 
(Ee EB Ba BU BN 
demo_timer.expires = jiffies + HZ; 
add timer(&demo timer); 


/定时 器 函数 将 data 参数 通过 类 型 转换 获得 设备 寄存 器 的 结构 体 指针 
struct device regs *preg = (struct device regs *) data; 
/定时 器 函数 此 后 将 会 读 取 设 备 状态 


} 


li 

/用 于 打开 设备 的 函数 实现 
H 

static int demo dev open(...) 
{ 


/分 配 设备 寄存 器 结构 体 的 指针 变量 ， 最 好 放 在 模块 初始 化 函数 中 … 
devreg = kmalloc(sizeof(struct device regs), GFP_KERNEL); 


init timer(&demo timer); // f] A+ BK init timer 来 初始 化 定时 器 对 象 demo. timer 
demo timer.expires = jiffies + HZ; // 设 定 定 时 器 到 期 时 间 点 ， 从 现在 开始 的 1 秒 钟 
demo timer.data = (unsigned long) devreg; // 将 设备 寄存 器 指针 地 址 作为 套数 
demo_timer.function = &demo_timer_func; 

add timer(&demo timer); 


i 

1/ 用 于 关闭 设备 的 函数 实现 

if 

static int demo dev release(...) 


{ 


del timer sync(&demo timer); /删除 定时 器 对 象 
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8.3.1 init timer 


在 前 面 的 示例 代码 中 ，demo_dev_open 函数 在 对 定时 器 对 象 demo. timer 的 expires. data 和 
function 成 员 赋 值 前 ， 调 用 了 init timer AM (内核 源码 中 以 宕 定义 的 形式 出 现 )。init_timer 
函数 内 部 会 调用 ” init timer, HEX F CERT struct timer list 中 一 些 调试 相关 成 员 的 
代码 ); 


static void — init timer(struct timer list *timer, 
const char *name, 
struct lock class key *key) 


timer->entry.next = NULL; 
timer->base = raw get cpu var(tvec bases), 
timer->slack = -1; 


I 


可 见 init timer 函数 主要 初始 化 定时 器 对 银 中 与 内 核实 现 相 关 的 成 员 , 所 以 设备 驱动 程序 在 
开始 使 用 定时 器 对 象 前 ， 应 该 调用 init timer， 这 样 从 内 核 层面 出 发 ， 后 续 对 定时 器 的 一 些 
操作 才 会 被 内 核 所 支持 ， 下 面 在 讨论 add timer 函数 时 会 看 到 这 一 点 。 


8.3.2 add timer 


当 程序 定义 了 一 个 定时 器 对 象 ， 并 且 通 过 dit timer. pA AFAR LI ie ETA P 
expires, data 和 function 等 成 员 初 始 化 之 后 ， 程 序 需要 调用 add timer 将 该 定时 器 对 象 加 入 
到 系统 中 ， 这 样 定 时 器 才 会 在 expires 表示 的 时 间 点 到 期 后 被 触 上 帮 。 可 以 想 匈 ，add_timer 
函数 的 内 部 实现 将 不 再 独立 ， 它 必然 会 和 内 核 中 关于 定时 器 的 基础 架构 发 生 关 联 。 


内 核 自 身 对 于 定时 器 的 管理 与 操作 设计 有 一 个 非常 完整 的 框架 ， 详 细 讨 论 这 些 技术 细节 需 
要 相当 的 篇 幅 ， 其 中 大 量 的 内 容 属于 内 核实 现 的 范畴 。 因 此 我 们 决定 将 后 续 的 讨论 限定 在 
设备 驱动 程序 员 需 要 关注 的 范围 之 内 ， 也 即 在 更 广 的 范围 内 我 们 给 出 定时 器 内 核实 现 原 理 
的 大 体 架 构 ， 在 更 细 分 的 范围 我 们 重点 讨论 与 驱动 程序 中 对 定时 器 的 使 用 等 密切 相关 的 部 
分 。 这 样 的 安排 相信 对 于 设备 驱动 程序 员 而 言 是 合理 的 : 在 了 解 了 基本 原理 的 前 担 下， 通 
过 对 内 核 如 何 组 织 和 调用 到 期 的 定时 器 函数 的 讨论 ， 现 实 中 我 们 将 知道 如 何 更 安全 更 有 效 
地 使 用 定时 器 ， 这 也 是 写作 本 书 的 主要 目的 。 


接 下 来 将 首先 讨论 内 核 如 何 管 理 系统 中 的 定时 器 ， 然 后 会 看 到 定时 器 函数 如 何在 指定 的 时 
间 到 期 后 被 调用 ， 最 后 会 讨论 add timer 函数 是 如 何 将 一 个 定时 器 对 象 加 入 到 系统 中 的 。 
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内 核 中 定义 了 一 个 数据 结构 struct tvec_base 来 管理 系统 中 添加 的 所 有 定时 器 , 其 定义 如 下 : 
<kernel/timer.c> 
struct tvec_base { 
spinlock_t lock; 
struct timer list *running timer; 
unsigned long timer jiffies; 
unsigned long next timer; 
struct tvec root tv]; 
struct tvec tv2; 
struct tvec tv3; 
struct tvec tv4; 
struct tvec tv5; 


} cacheline aligned; 


其 中 的 tv1、tv2、tv3、tv4 和 tv5 被 内 核 用 来 对 系统 中 注册 的 定时 器 进行 散 列 式 的 管理 ， 后 
面 会 看 到 其 用 法 。 内 核 为 系统 中 的 每 个 CPU 都 定义 了 一 个 struct tvec base 类 型 的 变量 
tvec bases: 

<kernel/timer.c> 

static DEFINE PER CPU(structtvec base*,tvec bases)- &boot tvec bases; (SS 
tvec bases 用 来 将 系统 中 加 入 的 每 个 定时 器 组 织 管理 起 来 .用 简单 的 单一 链表 结构 当然 也 可 
以 实现 这 一 目标 ， 然 而 系统 会 在 每 个 时 钟 中 断 中 去 扫描 该 链表 并 要 分 辨 出 哪些 定时 器 已 经 
到 期 或 者 是 即将 到 期 ， 所 以 必须 使 得 这 一 任务 的 执行 效率 非常 高 以 消耗 极 小 的 CPU 资源 。 
因此 内 核 采 用 了 上 述 struct tvec_base 结构 来 组 织 链表 ， 读 者 可 以 简单 地 认为 它 是 基于 哈 希 
表 的 一 个 实现 。 每 当 设 备 驱动 程序 通过 add timer 向 系统 添加 一 个 定时 器 对 象 时 ,系统 都 会 
对 该 定时 器 对 象 的 到 期 时 间 expires 进行 分 类 , 根据 到 期 时 间 的 长 短 将 当前 定时 器 对 象 放 到 
struct tvec_base 对 得 的 成 员 tv] 、tv2、tv3、tv4 和 tv5 领衔 的 定时 器 链表 中 。 比 如 ， 其 中 的 
tv] 中 定时 器 的 到 期 时 间 范 围 是 0~255 个 时 钟 周期 , 前 面 已 经 看 到 了 struct tvec_base 结构 的 
定义 ， 它 的 成 员 tvl 其 实 也 是 个 数组 ， 大 小 是 256， 分 别 对 应 expires 为 0-255 个 jiffies 的 
定时 器 ， 如 乐 有 多 个 到 期 时 间 相 同 的 定时 器 ， 则 它们 将 会 以 双 链 表 的 形式 链接 到 同一 数组 
项 中 。 其 他 的 成 员 tv2. tv3, tv4 和 tv5 用 来 存放 到 期 时 间 更 久 的 定时 器 ， 除 此 之 外 与 tvl 
的 原理 是 一 样 的 。 图 8-2 为 问 系 统 中 添加 一 个 定时 器 对 象 的 示意 图 。 


至 此 程序 只 是 完成 了 向 系统 添加 一 个 定时 器 对 象 的 工作 ， 接 下 来 讨论 添加 的 定时 器 对 象 在 
指定 的 时 间 到 期 时 如 何 被 触发 ， 也 就 是 定时 器 对 象 中 的 定时 器 函数 何 时 被 调用 的 问题 。 


我 们 知道 ，Linux 内 核 一 秒 中 都 会 发 生 很 多 次 的 时 间 中 断 ， 在 每 个 时 钟 中 断 处 理 函 数 中 ， 
严格 地 说 是 时 钟 中 断 处 理 的 下 半 部 也 就 是 sofürq 部 分 ， 会 对 tvec bases 管理 的 定时 器 队列 
进行 扫描 ， 以 确定 当前 队列 中 有 哪些 定时 器 已 经 到 期 。 
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B 新 增 定 时 器 对 象 
图 8-2 通过 add timer 向 系统 新 增 一 个 定时 器 对 银 
Linux 内 核 中 时 钟 中 断 的 softirq 为 TIMER SOFTIRQ， 对 应 的 软 中 断 处 理 函 数 的 安装 发 生 
在 系统 初始 化 阶段 的 init_timers E CP 
<kemellimerc> 
void — init init timers(void) 
( 


— € IMER SOFTIRQ, run timer softirq); 
} 
所 以 ， 当 时 钟 中 断 的 softirq 被 调度 执行 时 ， 它 将 运行 对 应 的 run. timer softirq 函数 。 在 每 
个 时 钟 中 断 处 理 的 上 半 部 分 ， 都 会 调用 run local timers 函数 ， 后 者 则 通过 使 用 raise_softirq 
函数 来 触发 时 钟 中 断 的 softirg 部 分 : 


<kernel/timer.c> 


i 
hrtimer_run_queues(); 
raise softirg( TIMER SOFTIRQ)J; 
softlockup tick(); 

} 


所 以 ， 当 时 钟 中 断 的 softirq 部 分 被 调度 执行 时 ，run_timer_softirq 会 负责 扫描 tvec_bases 所 
在 的 定时 器 管理 队列 ， 找 到 已 经 到 期 的 函数 ， 然 后 调用 到 期 定时 器 对 象 节点 上 的 定时 器 函 


<kernel/timer.c> 


^ow- ge BR e c rr e eee we eee Ra ommo umo KE eee eee mo mo Go eee "re mer 


static void run_timer_softirg(struct softirq_action *h) 


{ 


struct tvec base *base = get cpu var(tvec bases); 


if (time after eq(Jiffies, base->timer_jiffies)) 
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. run timers(base); 
} 


run timer softirq 对 于 那些 到 期 的 定时 器 队列 调用 _run_timers 函数 进一步 处 理 ， 后 者 的 部 
分 核心 代码 如 下 : 
kemelimerc> CO 
static inline void _ run timers(struct tvec base *base) 
{ 


struct timer list *ttmer; 


spin lock irq(&base-»lock); 
while (time after eq(jiffies, base->timer_jiffies)) { 


while (!list empty(head)) { 
void (*fn)(unsigned long); 
unsigned long data; 


timer = list first entry(head, struct timer. list,entry); 
fn = timer->function; 
data = timer->data; 


detach_timer(timer, 1); 


spin_uniock_irq(&base->lock); 
call_timer_fn(timer, fn, data); 
spin lock irg( &base-»lock); 


} 


BE ic) AS PAG EE 对 tvec_bases 管理 的 定时 器 队列 进行 扫 摘 ,如 果 上 发 现 有 定时 器 到 期 ( 代 
码 中 用 time after eq 来 进行 判断 )， 则 调用 该 定时 器 对 鲁 的 咎 函数 (fn = timer->function, 
fn(data))， 这 个 过 程 发 生 在 call timer fn 函数 中 。 读 者 需要 注意 ， 在 调用 call timer fn 前 
. run timers 调用 了 detach timer(timer，1)， 该 函数 会 把 当前 正在 处 理 的 定时 器 对 和 象 从 
tvec bases PARR, 所 以 当 一 个 定时 器 对 象 中 的 定时 函数 被 调用 时 ， 芒 定时 器 对 象 已 经 从 系 
统 的 定时 器 队列 中 删除 了 ， 所 以 如 果 要 让 该 定时 器 对 和 象 在 以 后 能 继续 被 系统 所 调用 ， 则 需 
要 再 次 调用 add timer 或 者 是 mod timer 来 将 该 定时 器 对 象 重新 加 入 到 系统 中 去 , 这 是 设备 
驱动 程序 用 定时 器 来 实现 轮 询 机 制 的 基本 原理 。 


通过 上 面 的 讨论 可 以 知道 ， 由 于 内 核对 系统 中 的 定时 器 队列 的 扫描 发 生 在 时 钟 中 断 的 
softirq 部 分 ， 鉴 于 softirq 的 实现 机 制 7， 在 某 些 情况 下 可 能 会 导致 当 一 个 定时 器 对 象 中 的 定 


T 关于 softirq 的 实现 原理 ， 可 以 参考 “中 断 处 理 ” 一 章 。 
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时 器 函数 被 调用 时 ， 实 际 的 jiffies 值 已 经 超出 了 当时 安装 定时 器 时 预 设 的 jiffies (A, PAA) 
话说 ， 使 用 定时 器 也 同样 存在 着 实际 到 期 时 间 点 延伸 的 问题 ， 如 果 使 用 当中 对 定时 精度 有 
严格 的 要 求 ， 那 么 也 许 要 考虑 在 现 有 的 通用 内 核 上 加 入 某 些 实时 性 的 扩展 。 


8.3.3 del timer #0 del timer sync 


[F] add timer AGAR, del timer 类 的 函数 负责 从 系统 的 定时 器 管理 队列 中 摘除 一 个 定时 
器 对 象 。del timer 和 del timer sync 的 函数 原型 为 : 


int del timer sync(struct timer list *timer); 


del timer 与 del timer sync iX HE SMP 系统 上 才 有 所 区 别 ， 在 单 处 理 器 系统 中 ， 
del timer sync 等 同 于 del timer. 


对 于 del timer ABR EN eR timer, MAS AAA AM SEE * pending 
的 定时 器 ， 一 个 处 于 pending 状态 的 定时 器 是 处 在 处 理 器 的 定时 器 管理 队列 中 正 等 待 被 调 
度 执行 的 定时 器 对 象 。 如 果 一 个 要 被 del timer 函数 删除 的 timer 对 象 已 经 被 调度 执行 《内 
核 源码 称 这 种 定时 器 状态 为 inactive )， 函 数 将 直接 返回 0， 否则 函数 将 通过 detach timer 将 
该 定时 器 对 象 从 队列 中 删除 。 在 多 处 理 器 的 SMP 系统 中 ，del timer sync 函数 要 完成 的 任 
务 除了 同 del timer 一 样 从 定时 器 队列 中 删除 一 个 定时 器 对 象 外 , 还 会 确保 当 函 数 返 回 时 系 
统 中 没有 任何 处 理 器 正在 执行 定时 器 对 象 上 的 定时 器 函数 ， 而 如 果 只 是 调用 del timer, JB 
么 当 国 数 返 回 时 ， 被 删除 的 定时 器 对 象 的 定时 器 函数 可 能 正在 其 他 处 理 器 上 运行 。 


8.4 ”本 章 小 结 


本 草 讨论 了 设备 驱动 程序 中 可 能 用 到 的 与 时 间 度 量 和 定时 相关 的 话题 。 这 类 时 间 管 理 相关 
的 任务 从 总 体 上 可 以 分 成 两 大 类 ， 一 类 是 延迟 当前 处 理 器 的 执行 ， 另 一 类 是 设 定 一 个 延迟 
时 间 点 ， 当 该 延迟 时 间 点 到 期 后 执行 特定 的 动作 。 


对 于 延迟 的 实现 ， 又 可 以 分 为 “ 忙 等 待 ” 和 “让 出 处 理 器 ”两 种 方式 ， 前 者 是 让 当前 的 处 
青 羡 进入 到 一 个 不 断 的 循环 中 以 实现 延迟 当前 的 执行 ， 因 为 处 理 器 在 这 种 循环 中 无 法 进行 
其 他 任务 的 处 理 , 所 以 这 种 方式 会 浪费 CPU 的 资源 。 因 此 为 了 改善 这 种 处 理 器 浪费 的 现象 ， 
又 有 了 所 谓 “ 让 出 处 理 器 ”的 延迟 方式 ， 相 对 于 “人 忙 等 待 ” 前 者 会 在 当前 进程 的 延迟 期 间 
让 出 处 理 占 ， 这 样 处 理 右 就 可 以 用 来 执行 别 的 进程 ， 从 而 提高 其 利用 率 。 但 如 果 程 序 需 要 
的 延迟 时 间 非 常 短 ， 比 如 只 在 微 秒 甚至 纳 秒 级 ， 这 种 情况 如 果 采 用 “让 出 处 理 器 ”的 方式 
来 实现 ， 那 么 由 于 进程 切换 的 时 间 开销 大 约 也 是 在 微 秒 这 个 级 别 上 ， 所 以 极 有 可 能 当前 需 
要 延迟 执行 进程 刚 被 切换 出 处 理 器 ， 延 迟 的 时 间 就 已 经 到 了 ， 此 时 又 需要 重新 将 该 进程 切 
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换 至 处 理 器 ， 如 此 效率 反而 不 高 。 


定时 器 在 设备 驱动 程序 中 最 常见 也 最 典型 的 使 用 场景 是 用 来 实现 轮 询 机 制 ， 内 核 为 定时 器 
机 制 设 计 了 一 套 完 整 的 机 制 ， 对 于 设备 驱动 程序 而 言 ， 只 需 定 浆 一 个 定时 器 对 银 并 指定 其 
到 期 时 间 及 实现 一 个 定时 器 函数 , 然后 通过 add timer 或 者 mod timer 将 该 定时 器 对 象 加 到 
系统 中 即 可 。 当 一 个 定时 器 对 象 到 期 被 执行 时 ， 内 核 会 将 其 从 系统 的 定时 器 管理 队列 中 摘 
除 下 来 ， 所 以 为 了 实现 轮 询 ， 驱 动 程序 需要 在 定时 器 国 数 中 重新 将 该 定时 器 对 象 如 入 到 管 
理 队 列 中 。 因 为 定时 器 的 实现 机 制 是 基于 系统 中 的 便 件 时 钟 中 断 ， 因 为 受 硬 件 时 钟 精度 以 
及 时 钟 中 断 softirg 固有 的 实现 特性 ， 定 时 器 的 精度 并 非 完 美 ， 但 是 对 于 绝 大 多 数 的 设备 驱 
Aa Ce ABT. 
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到 目前 为 止 ， 所 讨论 的 Linux 系统 下 的 设备 驱动 都 是 独立 的 ， 驱 动 与 驱动 之 间 并 没有 实质 
性 的 联系 。 随 痢 Linux 系统 越 来 越 成 熟 ， 与 设备 驱动 相关 的 一 些 新 的 特性 需要 加 入 ， 而 之 
前 独立 的 设备 驱动 已 经 无 法 胜任 新 形势 下 的 工作 ， 于 是 Linux 需要 找 出 一 种 方式 ， 让 系统 
中 的 各 种 设备 及 其 驱动 程序 能 有 效 地 沟通 起 来 ， 如 同人 类 社会 发 展 那 样 ， 孤 独 的 原始 人 类 
需要 进入 群居 的 时 代 ， 于 是 部 落 产 生 了 。Linux 为 此 建立 了 这 样 的 一 种 “部 落 ”， 这 就 是 本 
章 要 讨论 的 主题 ，Linux 设备 驱动 模型 。 在 具体 放 析 这 个 模型 的 每 个 细节 的 时 候 ， 和 希望 读 
者 脑海 中 始终 抓 住 一 个 关键 的 主题 ， 相对 于 以 前 独立 的 设备 驱动 开发 模式 ，Linux 的 这 种 
新 的 设备 模型 到 底 给 系统 带 来 了 哪些 好 处 ， 换 言 之 ， 为 什么 要 提出 这 种 设备 模型 的 概念 。 


在 本 章 的 讨论 中 ， 不 会 涉及 设备 驱动 模型 的 每 个 细节 ， 因 为 按照 笔者 的 经 验 ， 这 样 的 叙述 
虽然 看 起 来 很 全 面 ， 但 是 读者 读 完 之 后 难以 在 心中 建立 一 个 完整 的 设备 模型 的 全 局 印象 。 
我 们 按照 主线 进行 ， 那 是 绝 大 多 数 Linux 设备 驱动 程序 员 在 实际 的 工作 中 可 能 与 之 打交道 
的 地 方 。 


9.1 sysfs 文件 系统 


理解 Linux 设备 驱动 模型 也 许 并 不 困难 ， 然 而 如 何 把 这 中 间 错 综 复杂 的 关系 理 清 楚 讲 清楚 
却 并 不 容易 ， 尤 其 是 以 一 种 通俗 易 懂 的 方式 阐述 其 中 的 设计 思想 。 


本 章 第 一 节 先 讨论 sysfs 文件 系统 。 在 作者 看 来 , Linux 设备 模型 如 同一 栋 规模 宏大 的 建筑 ， 
为 了 构建 它 ， 除 了 基本 的 建筑 材料 外 这 就 是 接 下 来 会 谈 到 的 kobject、kset 等 基础 类 数据 
结构 )， 尚 需要 一 种 机 制 ， 来 向 建筑 外 面 的 世界 (用 户 空间 的 程序 》 展 示 内 部 的 构造 ， 并 且 
通过 文件 接口 的 方式 实现 与 外 界 的 沟通 与 互动 。sysfs 文件 系统 就 充当 了 这 种 角色 ， 它 不 但 
在 各 种 基础 的 建筑 材料 之 间 建 立 彼此 的 互联 层次 关系 ， 而 且 向 外 界 提 供 了 与 建筑 内 设施 进 
行 互动 的 文件 接口 。 这 种 形象 的 比喻 反映 到 Linux 系统 ,我 们 可 以 看 到 sysfs 文件 除了 在 内 
核 空 间 所 展现 的 合 纵 连 横 作 用 外 ， 而 且 以 文件 目录 层次 结构 的 形式 向 用 户 空间 提供 了 系统 
硬件 设备 间 的 一 个 拓扑 图 ， 这 种 文件 形式 的 接口 也 让 用 户 空间 与 内 核 空 间 的 数据 对 象 的 交 
互 成 为 可 能 .读者 如 果 熟 悉 proc 文件 系统 的 话 , 应 当知 道 sysfs 文件 系统 实际 上 取代 了 proc 
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文件 系统 的 功能 ， 当 然 取 代 proc 文件 系统 只 是 sysfs 文件 系统 一 小 部 分 的 功能 而 已 。 这 种 
数据 对 象 间 的 交互 的 一 个 具体 的 例子 就 是 ， 透 过 sysfs 文件 系统 可 以 取代 ioctl 的 功能 : 在 
本 书 前 面 的 章节 曾经 讨论 过 ioctl 的 实现 , 在 那里 , 如 果 向 一 个 设备 文件 发 送 ioctl 命令 的 话 ， 
需要 首先 打开 该 设备 文件 , 然后 再 通过 ioctl 函数 向 设备 发 出 命令 , 很 显然 需要 一 个 完整 ( 虽 
然 代 码 可 能 很 简单 ) 的 应 用 程序 来 做 这 件 事 , 现在 有 了 sysfs 文件 系统 ,一 个 很 简单 的 shell 
命令 也 许 就 可 以 完成 前 面 所 说 的 工作 。 


虽然 作者 在 这 里 说 得 有 点 天 花 乱 坠 ， 但 是 仅 凭 这些 语句 根本 无 法 打消 读者 心中 的 疑虑 与 忧 
fh, fA, Linux 下 的 设备 驱动 模型 是 个 复杂 的 系统 ， 理 解 它 包容 它 需要 我 们 有 足够 的 而 
心 .然而 也 许 具体 的 例子 才 是 解说 sysfs 文件 系统 在 Linux 设备 驱动 模型 中 作用 的 最 好 方法 ， 
所 以 在 下 面 的 讨论 中 我 们 会 刻意 试图 做 到 这 一 点 。 


现在 我 们 打算 从 这 个 文件 系统 的 起 源 开 始 谈 起 , 但 是 我 们 不 会 讨论 sysfs 文件 系统 实现 的 细 
节 ， 因 为 像 read、write 和 创建 一 个 目录 等 等 ， 属 于 内 核 中 文件 系统 应 该 要 讨论 的 范围 ， 而 
且 这 些 操作 的 原理 都 大 同 小 异 ， 在 这 些 方面 放置 过 多 的 篇 幅 对 读者 理解 Linux 设备 驱动 模 
型 并 无 神 益 。 我 们 这 里 对 sysfs 文件 的 讨论 ， 是 希望 读者 在 读 完 本 节 后 对 sysfs 在 系统 中 的 
地 位 有 个 全 局 性 的 认识 ， 这 样 当 我 们 在 后 续 的 设备 模型 高 级 阶段 的 讨论 中 ， 读 者 理解 起 来 
也 许 就 会 轻松 那么 一 点 。 


sysfs 文件 系统 的 初始 化 发 生 在 Linux 系统 的 启动 阶段 : 


<fs/sysfs/mount.c> 
int initsysfs init(void) = $|§§ 
1 
err — register filesystem(&sysfs fs type); 
if (lerr) { 
sysis maunt = kern. mount(&systs fs type); 
} else 
goto out err; 


} 
实际 的 sysfs_init 函数 源 代码 绝 不 会 如 此 不 堪 ， 不 过 核心 的 东西 都 包含 在 这 里 了 。 
图 数 将 向 系统 注册 一 个 类 型 为 sysfs fs type 的 文件 系统 ，sysfs fs type 的 定义 为 ; 


static struct file system type sysfs fs type= { 
name — "sysfs", 
get sb —sysfs get sb, 
kill sb — sysfs kill sb, 
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关于 这 个 结构 没有 多 少 需要 解释 的 地 方 , 唯 一 可 能 要 注意 的 地 方 是 sysfs fs type 中 的 get sb 
成 员 ， 它 指向 函数 sysfs get sb， 感 兴趣 的 读者 可 以 目 己 看 看 这 个 函数 的 源码 实现 ， 它 实际 
上 在 内 核 空 间 创 造 了 一 棵 独立 的 VES $4 (关于 VFS 的 内 核 机 制 ， 读 者 可 以 参考 文章 
http://www.embexperts.com/viewthread.php?tid-4&extra-page?e3D1), ACEA VFS Bj 
主要 用 来 沟通 系统 中 总 线 、 设 备 与 驱动 ， 同 时 向 用 户 空间 提供 接口 及 展示 系统 中 各 种 设备 
的 拓展 视图 等 ， 事 实 上 它 并 不 用 来 作为 其 他 实际 文件 系统 的 挂 载 点 。 


sysfs_get_sb KARHE sysfs 文件 系统 的 超级 块 ， 其 内 部 调用 的 最 主要 的 函数 是 
sysfs fill super, 后 者 再 经 过 一 系列 的 函数 调用 链 进 入 到 sysfs init inode 函数 ， 这 里 之 所 以 
重点 踢 调 这 个 国 数 ， 是 因为 在 接 下 来 谈 到 内 核对 象 的 属性 问题 时 会 看 到 用 户 空间 和 内 核对 
象 的 沟通 问题 ， 这 种 文件 接口 形式 的 交互 发 生 在 内 核 空间 和 用 户 空间 ， 所 以 我 们 需要 知道 
这 条 沟通 的 通道 是 如 何 建立 起 来 的 。 在 sysfs_init_inode 中 ,函数 将 为 sysfs 文件 系统 中 每 个 
文件 或 目录 所 对 应 的 inode 赋予 一 个 新 的 操作 对 象 : 


<fs/sysfs/inode.c> 


-一 一 moe ` E- rrr A A GE A M eee eee ee eee ee ee 


static void sysfs_init_inode(struct sysfs_dirent *sd, struct inode *inode) 
{ 


struct bin_attribute *bin_attr; 


inode->i_private = sysfs get(sd); 

inode->i_mapping->a_ops = &sysfs_aops; 
inode->i1_mapping->backing_dev_info &sysfs backing dev info; 
inode-^i op = &sysfs inode operations; 


set default inode attr(inode, sd-^s mode); 
sysfs refresh inode(sd, inode}; 


/* initialize inode according to type */ 

switch (sysfs type(sd)) { 

case SYSFS DIR: 
inode-—1 op = &sysfs dir inode operations; 
inode->i_fop = &sysfs dir operations; 
break; 

case SYSFS KOBJ ATTR: 
inode-^i size = PAGE SIZE; 
inode->i_fop = &sysfs file operations; 
break; 

case SYSFS KOBJ BIN ATTR: 
bin attr = sd--s bin attr.bin attr; 
inode->1_ size = bin_attr->size; 
inode->1 fop = &bin fops; 
break; 

case SYSFS_KOBJ LINK: 
inode->i_op = &sysfs symlink inode operations; 
break; 
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default: 
BUGO; 
} 


unlock new inode(inode); 


} 
读者 将 在 本 章 稍 后 对 内 核对 象 属性 的 讨论 中 看 到 这 个 函数 的 用 途 。 


sysfs 文件 系统 是 个 基于 RAM 实现 的 文件 系统 ， 如 果 编 译 内 核 时 指定 了 CONFIG SYSFS 
选项 ， 那 么 这 个 文件 系统 就 会 包含 到 内 核 中 。 对 于 用 户 进程 中 的 文件 系统 来 说 ，sysf 的 标 
准 挂 载 点 是 “/sys” 目 录 ， 将 sysfs 文件 系统 挂 载 到 用 户 进 程 的 “/sys” 目 录 的 命令 为 : 


mount -t sysfs sysfs ‘sys 


如 此 ， 所 有 内 核 层 面 的 对 sysfs 文件 树 的 操作 ， 都 将 一 成 不 变 地 显示 在 用 户 空 间 的 “/sys” 
目录 下 。 


接 下 来 照 理应 该 讨论 syss 文件 系统 在 Linux 设备 驱动 模型 中 的 具体 作用 ， 换 和 句 话说 ， 在 
Linux 设备 驱动 模型 中 ， 内 核 基 于 sysfs 文件 系统 之 上 都 会 有 哪些 操作 ， 但 是 因为 目前 大 部 
分 主角 都 还 没有 登场 ， 所 以 不 妨 把 这 种 讨论 稍稍 推迟 。 


9.2 kobject 和 kset 


本 节 将 讨论 Linux 实现 设备 驱动 模型 的 底层 数据 结构 kobject 和 kset， 在 后 面 讨 论 总 线 、 设 
备 与 驱动 时 ， 会 经 常 看 到 对 这 些 底层 数据 结构 的 操作 ， 因 此 虽然 本 节 的 讨论 非常 抽象 ， 但 
是 为 了 清楚 理解 整个 Linux 设备 驱动 模型 的 实现 机 市， 用 一 定量 的 篇 幅 来 讲述 这 些 抽象 的 
概念 还 是 值得 的 ， 不 过 幸运 的 是 ， 作 为 一 名 设备 驱动 程序 员 ， 基 本 上 不 会 与 这 些 属于 建筑 
内 部 框架 结构 设计 的 消 数 接口 有 照 面 的 机 会 ， 所 以 好 奇 心 不 强 的 读者 跳 过 此 节 也 无 妨 。 

如 果 将 Linux 设备 模型 比喻 成 一 座 大 厦 , 那么 kobject 和 kset 就 是 构成 这 座 大 厦 内 部 的 钢筋 
及 由 若干 钢筋 构建 的 钢 架 结构 ， 再 由 若干 的 它们 构成 了 整 座 大 厦 内 部 的 表现 形式 ， 设 备 驱 
动 模型 中 的 bus. device 和 driver 已 经 是 整 座 大 厦 向 外 界 展 示 的 那 部 分 了 ， 所 以 程序 员 们 主 
要 是 和 后 三 者 打 变 道 。 


9.2.1 kobject 
Linux 内 核 用 kobject 来 表示 一 个 内 核对 象 ， 它 在 源码 中 的 定义 为 : 


一 


struct kobject { 
const char *name; 
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struct list head entry; 

struct kobject * parent; 
Struct kset *kset; 

struct kobj type  *ktype; 

struct sysfs dirent *sd; 

struct kref kref; 

unsigned int state_initialized:1; 
unsigned int state in sysfs:1; 
unsigned int state add uevent sent:]; 
unsigned int state remove uevent sent:l; 
unsigned int uevent  suppress:1; 


h 
在 此 先 简 单 解释 一 下 其 每 位 成 员 的 作用 : 
const char *name 


用 来 表示 该 内 核对 象 的 名 称 。 如 果 访 内核 对象 加 入 系统 ， 那 么 它 的 name 将 会 出 现在 
sysfs 文件 系统 中 《〈 表 现形 式 是 一 个 新 的 目录 名 )。 


struct list head entry 

用 来 将 一 系列 的 内 核对 象 构成 链表 。 
struct kobject *parent 

指 回 该 内 核对 象 的 上 层 节点 。 通 过 引入 该 成 员 构建 内 核对 象 之 间 的 层次 化 关系 。 
struct kset —  *kset 


当前 内 核对 象 所 属 的 kset 对 象 的 指针 。kset 对 象 代 表 一 个 subsystem， 其 中 容纳 了 一 系 
列 同类 型 的 kobject IH. 


struct kref kref 

其 核心 数据 是 一 原子 型 变量 ， 用 来 表示 内 核对 象 的 引用 计数 。 内 核 通过 该 成 员 追 踪 内 
惊 对 象 的 生命 周期 。 
struct kobj type *ktype 


定义 了 该 内 核对 象 的 一 组 sysfs 文件 系统 相关 的 操作 函数 和 属性 。 显然 不 同类 型 的 内 核 
对 象 会 有 不 同 的 ktype， 用 以 体现 kobject 所 代表 的 内 核对 象 的 特质 。 通 过 该 成 员 ，C 中 的 
struct 数据 类 型 具备 了 C++ 中 class 类 型 的 某 些 特点 ， 这 里 体现 了 基于 C 的 面向 对 象 设计 思 
想 。 同 时 ， 内 核 通过 ktype 成 员 将 kobject 对 象 的 sysfs 文件 操作 与 其 属性 文件 关联 起 来 。 


struct sysfs dirent *sd 
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用 来 表示 该 内 核对 象 在 sysfs 文件 系统 中 对 应 的 目录 项 的 实例 。 
unsigned int state_inittalized 


表示 该 kobject 所 代表 的 内 核对 象 初始 化 的 状态 ，1 表示 对 象 已 被 初始 化 ，0 表示 尚未 
初始 化 。 


unsigned int state_in_sysfs 
表示 该 kobject 所 代表 的 内 核对 象 有 没有 在 sysfs 文件 中 建立 一 个 入 口 点 。 
unsigned int uevent_suppress 


如 果 该 kobjeet 对 象 隶属 于 某 一 kset, 那么 它 的 状态 变化 可 以 导致 其 所 在 的 kset 对 象 向 
用 户 空 间 发 送 event 消息 。 成 员 uevent_suppress 用 来 表示 当 该 kobject 状态 发 生变 化 时 ， 是 
否 让 其 所 在 的 kset 向 用 户 空间 发 送 event 消息 。 值 1 表示 不 让 kset 发 送 这 种 event 消息 。 


kobject 数据 结构 最 通用 的 用 法 是 购 在 表示 某 一 对 象 的 数据 结构 中 ， 比 如 内 核 中 定义 的 字符 
型 设备 对 象 cdev PRA T kobject 结构 ; 


PA Se 40 — 7735 4 dA 6002 "US 78 odo -— oh € a 


| struct cdev 1 

struct kobject kobj; 

struct module *owner; 

const struct file operations *ops; 

struct list head list; 

dev t dev; 

unsigned int count; 

h 

下 面 介绍 内 核 中 定义 的 对 kobject 对 象 上 的 一 些 常 用 的 操作 函数 。 需 要 提醒 读者 的 是 ， 设 备 
驱动 程序 一 般 不 会 与 这 些 底层 的 函数 直接 打交道 ， 这 里 简单 介绍 这 些 函 数 是 希望 读者 能 大 
致 了 解 其 功能 ， 因 为 在 讨论 到 设备 驱动 模型 的 高 层 框架 时 ， 它 们 将 经 常 被 提 及 。 当 然 ， 如 
果 的 确 有 需要 ， 也 可 以 直接 在 设备 驱动 程序 模块 中 调用 这 些 底层 的 函数 ， 本 节 后 面 会 给 出 
一 些 在 驱动 程序 中 调用 这 些 底层 函数 的 例子 。 


O kobject set name 


该 函数 用 来 设 定 kobject 中 的 name 成 员 ， 函 数 原 型 为 : 
int kobject set name(struct kobject *kobj, const char *fmt, ...) 
O  kobject init 


该 图 数 用 来 初始 化 一 个 内 核对 象 的 kobject 结构 ， 其 核心 功能 代码 为 《去 除了 一 些 参数 检查 
等 的 代码 ): 
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Ems Rae opo te a RES pe mb VE Epi Sian gd lege a mh UNS ere Ee a ge ek ee pe eee ms m a ae eee ee ee 


{ 


kobject_init_internal(kobj); 
kobj->ktype = ktype; 
return; 


} 
除了 为 kobj 指定 ktype 成 员外 ， 真 正 的 初始 化 工作 发 生 在 kobject init internal 中 : 


<lib/kobject.c> 


( 

if (!kobj) 
return; 

kref init(&kob]-^kret); 
INIT LIST HEAD(&kob;j--entry); 
kobj->state_in_sysfs = 0; 
kobj->state_add_uevent_sent = 0; 
kobj->state_remove_uevent_sent = 0; 
kobj-»state initialized = 1; 

} 


pei XX rh IP] kref_init(&kobj->kref) H T£ kobject 的 引用 计数 refcount 初始 化 为 1, 
state_initialized 置 为 1 表示 该 内 核对 象 已 被 初始 化 , state in sysfs 置 为 0 表示 该 内 核对 象 沿 
未 出 现在 sysfs 文件 树 中 。 


O  kobject add 


A RURE A : 


int kobject_add(struct kobject *kobj, struct kobject *parent, const char *fmt, ...) 


对 于 kobject Kit, RATER ETHAN. AHAB S Xx A RSA Re, BR 
以 此 处 不 再 列 出 其 源码 ， 我们 解释 该 函数 的 主要 功能 , 然后 给 出 作为 示范 性 质 的 代码 片段 。 


kobject add 的 主要 功能 有 两 个 ， 一 是 建立 kobject 对 象 间 的 层次 关系 ， 二 是 在 sysfs 文件 系 
统 中 建立 一 个 目录 。 在 将 一 个 kobject 对 象 通过 kobject add 函数 调用 加 入 系统 前 ， kobject 
XT S8 4^ a aA 28 4L s 


关于 这 两 个 功能 的 实现 细节 ，kobject_add 首先 将 参数 parent 赋值 给 kobj 的 parent RA 
kobj->parent = parent， 然 后 调用 kobject add internal(kobj) 函 数 。 在 kobject add internal Efi 
数 内 部 , 如 果 调 用 kobject_add 时 parent 是 一 NULL 指针 , 那么 要 看 该 kobj 是 否 在 一 个 kset 
对 和 象 中 如果 是 就 把 该 kset 中 的 kobject 成 员 作为 kobj 的 parent; 否则 该 kobj 对 象 在 sysfs 
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文件 树 中 就 将 处 于 根 目录 的 位 置 。 


<lib/kobject.c> 


static int kobject add internal(struct kobject *kobj} 
{ 


parent = kobject_get(kobj->parent); 
/在 kobj 有 所 属 的 kset 的 情况 下 
if (kobj->kset) { 
1 如 果 调 用 kobject add 时 ， 传 入 的 parent 参数 是 一 NULL 指针 
if (!parent) 
/就 把 kobj 所 在 的 kset 中 的 kobj 作为 它 的 parent 
parent = kobject_get(&kobj->kset->kobj); 
/将 kobj 加 入 到 所 属 kset 链表 的 末尾 
kobj kset join(kobj); 
kobj->parent = parent; 
} 
/在 kobj 没有 所 属 的 kset 的 情况 下 ， 如 果 调 用 kobject_add 时 parent 为 NULL 
/那么 kobj->parent 也 将 为 NULL 


kobject add 接 下 来 会 调用 sysfs create dir 在 sysfs 文件 树 中 创建 目录 ， 


<fs/sysfs/dir.c> 


int sysfs_create_dir(struct kobject * kobj) 
{ 


if (kobj->parent) 

parent sd = kobj->parent->sd; 
else 

parent sd = &sysfs root; 


error = create dir(kobj, parent sd, type, ns, kobject name(kobj), &sd); 
if (lerror) 

kobj->sd = sd 
return error; 


} 


可 以 看 到 ,如果 kobj->parent 为 NULLC 刚 刚 在 kobject add internal 函数 中 讨论 过 这 种 情况 )， 
调用 create dir 在 sysfs 文件 树 中 为 当前 kobj 创建 目录 时 ，parent sd = &sysfs root, FM) 
parent sd = kobj->parent->sd. parent sd = &sysfs_root 意味 着 在 sysfs 文件 树 的 根 目录 下 为 
kobj 创建 一 个 新 的 目录 ， 否 则 就 是 在 parent sd 对 应 的 目录 底下 创建 新 目录 。 如 果 kobj 在 
sysfs 中 成 功 创建 了 一 个 新 目录 ， 自 然 应 该 将 kobj->state in sysfs #H 1. 


TE sysfs 文件 系统 中 ， 目录 对 应 的 数据 结构 为 struct sysfs dirent, MACHA sd 表示 该 类 型 的 
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一 个 实例 ， 在 将 kobj 对 象 加 入 sysfs 文件 树 之 后 ，kobj->sd = sd. 
OQ  kobject init and add 
国 数 原型 为 : 


int kobject init and add(struct kobject *kobj, struct kobj type *ktype, 
struct kobject *parent, const char *fmt, ...) 


该 函数 实际 的 工作 是 将 kobject init 和 kobject add 两 个 函数 的 功能 合并 到 了 一 起 ， 
O  kobject create 


该 函数 用 来 分 配 并 初始 化 一 个 kobject X188: 


<lib/kobject.c> 


a Se ee "cl ^ iar "ys ax PO ER 


struct kobject *kobject create(void) 
{ 


struct kobject *kobj; 


kobj = kzalloc(sizeof(*kobj), GFP KERNEL); 
if (!kobj)} 
retum NULL; 


kobject init(kobj, &dynamic_kobj_ktype); 
return kobj; 
} 


如 果 调 用 kobject create 来 产生 一 个 kobject MR, 那么 调用 者 将 无 法 为 该 kobject HRA 
指定 kobj_type。kobject_create 为 产生 的 kobject 对 象 指定 了 一 个 默认 的 kobj type WH 
dynamic_kobj_ktype， 这 个 行为 将 影响 kobject 对 银 上 的 sysfs 文件 操作 。 如 果 调 用 者 需要 明 
确 指定 一 个 目 己 的 kobj type HRA kobject 对 铺 ， 那 么 还 应 该 使 用 其 他 函数 ， 比 如 调用 
kobject init and add 函数 。 


©  kobject create and add 


函数 内 部 首先 调用 kobject create 来 分 配 并 初始 化 一 个 kobject 对 象 ,然后 再 调用 kobject add 
函数 在 sysfs 文件 系统 中 为 新 生成 的 kobject 对 象 建 立 一 个 新 的 目录 : 


<lib/kobject.c> 


ee 


struct kobject *kobject_create_and_add(const char *name, struct kobject *parent) 
{ 


一 一 


struct kobject *kobj; 
int retval; 


kobj = kobject create(); 
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} 


if (!kobj) 
return NULL; 


retval = kobject add(kobi, parent, "95s", name); 
if (retval) { 


printk(KERN WARNING "%s: kobject add error: %d\n", 


. func ,retval); 
kobject put(kobj); 
kob] = NULL; 
} 
return kobj; 


OQ kobject_del 
PA BLA SE LARS A: 


<lib/kobject.c> 
void kobject del(struct kobject *kobj) 


{ 


} 


图 数 将 在 sysfs 文件 树 中 把 kobj 对 应 的 目录 删除 ， 为 外 如 果 kobj 隶属 于 某 一 kset 的 话 ， 将 


if (Tkobj) 
return: 


sysfs remove_dir(kobj); 
kobj->state_in_sysfs = 0; 
kobj kset leave(kobj); 
kobject_put(kobj->parent); 
kobj->parent = NULL; 


其 从 kset 的 链表 中 删除 。 


以 上 介绍 了 内 核 针对 kobject 对 象 定义 的 一 些 常见 的 操作 函数 ， 很 枯燥 也 很 抽象 。 现 在 我 们 
来 试 着 做 点 看 起 来 可 能 比较 有 趣 的 事情 ， 在 设备 驱动 程序 中 调用 kobject create and add 在 


sysfs 文件 树 中 生成 一 个 目录 ; 


/ 先 声明 一 个 kobject 对 象 指针 parent 
static struct kobject *parent = NULL; 


static int init kobj_demo_init(void) 


{ 


} 


parent = kobject create and add("pa obj", NULL); 


module init(kobj demo init); 
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在 把 上 述 模块 加 载 到 系统 之 后 ， 就 可 在 /sys 目录 下 看 到 一 名 为 “pa_obj” 的 新 目录 : 


root@AMDLinuxFGL:/sys# ls -I 


total 0 


drwxr-xr-x 2 root root 0 Jun 18 19:03 pa obj 
drwxr-xr-x 2 root root 0 Jun 18 15:04 power 


如 果 在 调用 kobject create and add 时 指定 了 parent BA, MAB kobject 对 象 所 对 应 的 目 
录 将 建立 在 parent 目录 之 下 。 比 如 把 上 面 的 代码 改 成 : 
/声明 两 个 kobject 对 和 象 ， 层 次 结构 为 父子 关系 


static struct kobject *parent = NULL; 
static struct kobject *child = NULL; 


static int init kobj demo init (void) 


{ 


parent = kobject create and add("pa_obj", NULL); 
/指定 child kobj 的 parent 
child = kobject create and add("cld obj", parent); 


} 


加 载 上 面 的 代码 将 会 在 sysfs 树 中 生成 两 个 新 的 目录 ， 体 现在 用 户 空间 的 /sys 目录 下 便 是 
/sys/pa_obj 目录 和 /sys/pa_obj/cld_obj 目录 。 


如 果 读 者 想 试 验 上 面 的 代码 ， 记 得 要 在 模块 的 退出 函数 中 调用 kobject del(child) 和 
kobject_del(parent)## child 与 parent 所 指向 的 对 象 删除 ， 这 样 /sys 目录 下 的 “eld_ obj" fü 
“pa_obj” 目 录 才 会 消失 ， 否 则 在 删除 这 个 新 目录 时 会 遇 上 麻烦 ， 因 为 sysfs 文件 系统 没有 
为 用 户 进 程 提 供 删 除 目录 的 接口 。 


通过 上 面 对 于 kobject 上 一 些 主要 操作 函数 的 讨论 ， 可 以 知道 将 一 个 kobject XTRA Ms INE AK 
统 或 者 从 系统 中 删除 ， 主 要 是 围绕 sysfs 文件 系统 展开 的 ， 对 应 的 结果 反映 到 /sys 目录 中 就 
是 一 个 新 目录 的 诞生 或 者 是 一 个 已 存在 目录 的 消亡 。 这 种 对 sysfs 文件 树 的 操作 的 现实 意义 
除了 向 用 户 空间 展示 不 同 kobject 对 象 之 间 的 层次 关系 外 , 还 在 于 用 户 空间 的 程序 可 以 通过 
文件 系统 的 接口 配置 内 核 空 间 kobject 对 象 的 某 些 属性 ， 这 是 下 一 节 要 讨论 的 主题 。 


9.2.2 kobject 的 类 型 属性 


kobject 数据 结构 中 内 悦 有 一 个 struct kobj type 类 型 的 成 员 *ktype, 在 内 核 中 struct kobj type 
的 定义 为 : 
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<include/linux/kobject.h> 
struct kobj type { 
void (*release)(struct kobject *kobj); 
const struct sysfs ops *sysfs ops; 
struct attribute **default attrs; 
const struct kobj ns type operations *(*child ns type)(struct kobject *kobj); 


const void *(*namespace)(struct kobject *kobj); 


}; 


关于 内 核对 象 kobject 的 命名 空间 (namespace) 问题 ,本 书 不 作 讨 论 。 下面 重 点 看 kobj_type 
的 前 三 个 成 员 函 数 ，release 显然 是 一 个 函数 指针 ， 成 员 sysfs ops 是 一 struct sysfs ops 类 型 
的 指针 ，struct sysfs_ops 的 定义 为 : 


<include/linux/sysfs.h> 


struct sysfs_ops { 

ssize t (*show)(struct kobject *, struct attribute *,char *); 

ssize t (*store)(struct kohject *,struct attribute *,const char *, size t); 
h 


所 以 sysfs ops 实际 上 定义 了 一 组 针对 struct attribute 对 象 的 操作 函数 的 集合 , struct attribute 
数据 结构 则 是 为 kobject 内 核对 象 定 义 的 属性 成 员 ， 它 在 源码 中 的 定义 是 ; 


<include/linux/sysfs.h> 

struct attribute { 
const char *name; 
mode t mode; 


H 


记得 前 面 讨 论 kobject init 函数 初始 化 一 个 内 核对 象 kobject 的 时 候 ， 会 同时 赋予 它 一 个 具 
TER] struct kobj_type WRAL, 那么 现在 的 问题 是 ,内核 会 如 何 使 用 kobject 的 这 个 成 员 呢 ? 


对 这 个 问题 的 探讨 其 实 关系 到 内 核 把 一 个 kobject 对 象 加 入 到 sysfs 文件 树 中 的 使 用 意图 。 
为 一 个 kobject 对 象 创建 一 个 属性 文件 使 用 的 函数 为 sysfs_create_file: 


<fs/sysfs/file.c> — 
int sysfs create file(struct kobject * kobj, const struct attribute * attr) 
{ 
BUG_ON(!kobj || !kobj->sd || !attr); 
return sysfs_add_file(kobj->sd, attr, SYSFS KOBJ ATTR): 
} 


在 使 用 这 个 函数 时 ， 必 须 确保 要 添加 属性 文件 的 kobj 对 得 之 前 已 经 加 入 了 sysfs “也 即 
kobj->state_in_sysfs = 1),sysfs_add file 函数 将 在 kobj->sd 对 应 的 目录 下 生成 一 个 属性 文件 。 
如 果 以 先前 的 “cld_ obj” 内 核对 象 为 基础 ， 在 其 下 添加 一 个 属性 文件 “cldatt”， 可 以 使 用 
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下 面 的 代码 : 


static struct attribute cld att = { 
.name = "cldatt", 
mode = S IRUGO|S_IWUSR, 
E 


sysfs create file(child, &cld att); 
运行 上 面 的 代码 后 ， 可 在 /sys/pa_obj/cld_obj 目录 下 看 到 一 名 为 “cldatt” 的 属性 文件 ， 如 下 ， 


root@AMDLinuxFGL:/sys/pa_obj/cld_obj# Is -I 
total 0 


-rw-r--r-- I root root 4096 Jun 18 21:25 cldatt 


用 户 空间 的 程序 在 使 用 一 个 内 核对 象 kobject 的 属性 文件 时 ， 会 首先 open 这 个 属性 文件 ， 
比如 open("cidatt", O RDONLY 1O_LARGEFILE)， 然 后 通过 系统 调用 等 一 系列 潜在 的 调用 
链 ， 这 个 函数 最 终 会 调用 到 sysfs open file: 


TE "TT rl 
Ns ds Xe uem un RE MS cw aw ad cad. ep oum RU Gems 


static int sysfs open file(struct inode *inode, struct file *file) 
{ 
struct sysfs dirent *attr sd = file->f_path.dentry->d_fsdata; 
struct kobject *kobj = attr_sd->s_parent->s_dir.kobj; 
struct sysfs_buffer *buffer; 
const struct sysfs_ops *ops; 


if (kobj->ktype && kobj->ktype->sysfs_ops) 
ops = kobj->ktype->sysfs_ops; 
else { 
WARN(1, KERN_ERR "missing sysfs attribute operations for " 
"kobject: %s\n", kobject_name(kobj)); 
goto err_out; 


} 


buffer = kzalloc(sizeof(struct sysfs_buffer), GFP_KERNEL); 
buffer->needs_read_ fill = 1; 

buffer->ops = ops; 

file->private_data = buffer; 


} 


PAS A EH EAS) T kobj 对 象 上 的 成 员 ktype， 将 ktype->sysfs_ops 赋值 给 了 ops: ops = 
kobj->ktype->sysfs_ops. 然后 通过 新 分 配 的 buffer 空间 , 间接 地 将 ktype->sysfs ops 放 到 了 file 
的 private_data 成 员 中 : file->private_data = buffer。 这 样 用 户 空间 的 程序 在 后 续 对 该 属性 文件 
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的 read 操作 中 ， 将 会 利用 file->private data 来 获得 kobj->ktype 中 定义 的 显示 kobj 属性 值 的 
show 函数 ， 如 果 要 改变 kobj 的 某 一 属性 值 ， 则 应 该 使 用 sysfs ops 中 的 store 函数 。 


内 核对 象 kobj 属性 文件 的 创立 与 来 自 kobj->kobj type 上 针对 属性 文件 的 读 写 操作 的 关系 可 
以 用 图 9-1 来 表达 : 








DOT" private data UE. pt E 


ops kobject 











y asse 
图 9-1 属性 文件 与 kobj_type 的 关联 
如 果 要 删除 一 个 属性 文件 ， 则 应 该 使 用 如 下 函数 : 
void sysfs_remove_file(struct kobject * kobj, const struct attribute * attr); 


所 以 , 内 核 通 过 kobject 属性 文件 的 方式 给 用 户 空间 程序 提供 了 一 种 显示 与 更 新 某 一 内 核对 
$$ kobject 上 的 属性 信息 的 接口 。 


9.2.3 kset 


kset 可 以 认为 是 一 组 kobject 的 集合 ， 是 kobject 的 容器 。kset 本 身 也 是 一 个 内 核对 象 ， 所 以 
需要 内 散 一 个 kobject 对 象 。 其 完整 定义 如 下 ， 


<include/linux/kobject.h> 


struct list_head list; 

spinlock_t list_lock; 

struct kobject kobj; 

const struct kset_uevent_ops *uevent_ops; 
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struct list head list 
用 来 将 其 中 的 kobject 对 象 构建 成 链表 。 
spinlock tlist lock 
对 kset 上 的 list 链表 进行 访问 操作 时 用 来 作为 互 斥 保护 使 用 的 自 旋 锁 。 
struct kobject kobj 
代表 当前 kset 内 核对 象 的 kobject 变量 。 
const struct kset_uevent_ops *uevent_ops 


ENAT HAAR E, 当 Kkset 中 的 某 些 kobject 对 象 发 生 状 态 变化 需要 通知 用 户 空间 时 ， 
调用 其 中 的 函数 来 完成 。struct kset uevent ops 类 型 声明 如 下 ; 


<include/linux/kobject.h> 


structkset_uevent ops{ 
int (* const filter)(struct kset *kset, struct kobject *kobj); 
const char *(* const name)(struct kset *kset, struct kobject *kobj); 
int (* const uevent)(struct kset *kset, struct kobject *kobj, 
struct kobj uevent env *env); 


h 
kset init 


用 来 初始 化 一 个 kset 对 象 ， 函 数 原 型 为 : 


void kset init(struct kset *k) 


kset_register 
用 来 初始 化 并 向 系统 注册 一 个 kset 对 象 ， 函 数 的 实现 如 下 : 
<lib/kobject.c> 
intkset register(struct kset ") ————00000000000 s 
{ 
int err; 
if (!k) 
return -EIN VAL; 
Kset_init(k); 
err = kobject_add_internal(&k->kobj); 
if (err) 
return err; 


kobject_uevent(&k->kobj, KOBJ ADD); 
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return 0; 
} 
其 中 kset init 和 kobject add internal 的 功能 都 比较 直观 ， 分 别 用 来 初始 化 kset XTRA [A Fe 
统 注 册 该 kset WR, AA kset 对 和 象 本 身 就 是 一 个 由 kobject 代表 的 内 核对 象 ， 所 以 
kobject add internal 函数 会 为 代表 该 kset 对 象 的 k->kobj 在 sysfs 文件 树 中 生成 一 个 新 目录 ， 
这 个 过 程 同 前 面谈 到 的 kobject 的 操作 是 完全 一 样 的 。 


kset 对 象 与 单个 的 kobject 对 过 不 一 样 的 地 方 在 于 ， 将 一 个 kse 对 象 问 系统 注册 时 ， 如 果 
Linux 内 核 编译 时 启用 了 CONFIG HOTPLUG， 那 么 需要 将 这 一 事件 通知 用 户 空间 ， 这 个 
过 程 由 kobject_uevent 完成 ,如 果 一 个 kobject MHRA Ji T TE — kset, 那么 这 个 孤立 的 kobject 
对 象 将 无 法 通过 uevent 机 制 向 用 户 空间 发 送 event 消息 。 

作为 下 文 讨 论 的 基础 ， 下 面 先 看 看 图 9-2 所 示 kobject 与 kset 的 层次 关系 : 


uevent opsi 





parent 


图 9-2 kobject 与 kset 的 层次 关系 


图 中 ，kobj 之 间 通 过 parent 成 员 实现 层次 关系 ， 如 果 某 一 kobj 的 parent 为 NULL， 那 么 在 
调用 kobject add 函数 将 该 kobi 加 入 系统 时 ， 函 数 首先 看 kobj->kset 是 否 为 NULL， 如 果 不 
为 NULL, 就 会 把 kobj->kset->kobj 作为 kobj 的 parent, 否则 系统 中 将 产生 一 个 孤立 的 kobject 
对 象 ， 该 对 象 将 无 法 通过 uevent 机 制 向 用 户 空间 发 送 event 消息 。kset 将 所 有 隶属 于 它 的 
kobject 对 象 放 到 一 个 链表 list 中 ,同时 可 以 看 到 kset 的 数据 结构 中 内 骨 了 一 个 kobject 成 员 ， 
所 以 kset 自身 也 是 作为 一 个 内 核对 象 而 存在 。 

kset 上 其 他 的 一 些 操作 包括;: 

OQ kset create and add 


图 数 原 型 为 : 


struct kset *kset_create_and_add(const char *name, 
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const struct kset_uevent_ops *uevent_ops, 
struct kobject *parent_kobj) 


主要 作用 是 动态 产生 一 kset 对 象 然后 将 其 加 入 到 sysfs 文件 系统 中 。 参 数 name 是 创建 的 kset 
XTRA BK, uevent_ops 是 新 kset 对 象 上 用 来 处 理 用 户 空 间 event 消息 的 操作 集 ,parent kobj 
是 kset HFA LE (RR) 的 内 核对 象 指针 。 


O kset_unregister 
国 数 原型 为 : 
void kset unregister(struct kset *k) 


用 来 将 k 指向 的 kset 对 象 从 系统 中 注销 ， 完 成 的 是 kset register 的 反 向 操作 。 


9.2.4 JAGR AA uevent 和 call usermodehelper 


这 里 的 热 插 拔 (hotplug》 可 以 简单 描述 为 ， 当 一 个 设备 动态 加 入 系统 时 (典型 地 如 用 户 将 
一 个 USB 盘 插 到 计算 机 上 )， 设 备 驱 动 程序 可 以 检查 到 这 种 设备 状态 的 变化 (加 入 或 者 移 
除 ), 然后 通过 某 种 机 制 使 得 在 用 户 空间 找到 该 设备 对 应 的 驱动 程序 模块 并 加 载 之 。 在 Linux 
系统 上 有 两 种 机 制 可 以 在 设备 状态 发 生变 化 时 ， 通 知 用 户 室 间 去 加 载 或 者 卸载 该 设备 所 对 
应 的 驱动 程序 模块 : 一 个 是 udev， 另 一 个 是 /sbin/hotplug。 在 Linux 发 展 的 早期 阶段 ， 用 户 
空间 支持 热 插 拔 的 唯一 工具 是 /sbin/hotplug， 它 的 幕后 推手 是 call usermodehelper 函数 ， 后 
者 能 够 从 内 核 空 间 启 动 一 个 用 户 空间 的 应 用 程序 。 随 着 内 核 的 发 展演 进 ， 后 来 又 发 展 出 了 
udev 机 制 并 逐渐 取代 了 /sbin/hotplug， 现 在 udev 工具 包 已 成 为 大 多 数 Linux 发 行 版 本 中 首 
选 的 方法 。udev 的 实现 基于 内 核 中 的 网 络 机 制 ， 它 通过 创建 标准 的 socket 接口 来 监听 来 自 
内 核 的 网 络 广播 包 ， 并 对 接收 到 的 包 进 行 分 析 处 理 。 


恰 如 刚才 所 提 到 的 ， 两 种 机 制 都 必须 得 到 来 自 内 核 空间 的 支持 才 可 以 工作 ， 因 为 本 书 主要 
讨论 设备 驱动 的 内 核 机制 ， 所 以 对 用 户 空间 的 这 些 工具 不 作 过 多 描述 ， 接 下 来 讨论 的 重点 
是 设备 驱动 程序 如 何在 内 核 空间 对 这 些 工具 给 予 支持 。 


Linux 设备 模型 中 一 个 非常 重要 的 功能 便 是 对 设备 热 插 拔 特性 的 支持 ， 具 体 到 底层 的 实现 
细节 上 ， 热 插 拨 在 内 核 中 通过 一 个 名 为 kobject uevent 的 函数 来 实现 。 它 通过 发 送 一 个 
uevent 消息 和 调用 call_usermodehelper 来 与 用 户 空间 进行 沟通 。kobject_uevent 所 实现 的 功 

和 Linux 系统 中 用 以 实现 热 插 拔 的 特性 息息相关 ， 它 是 udev 和 /sbin/hotplug 等 工具 赖 以 
工作 的 基石 。 所 以 有 是 够 的 理由 让 我 们 用 出 一 定 的 篇 幅 来 仔细 讨论 一 下 kobject uevent H 
数 ， 该 函数 在 内 核 中 的 实现 为 : 


«lib/kobject uevent.c» 
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int kobject uevent(struct kobject *kobj, enum kobject actionaction — stsi—S 
{ 
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return kobject_uevent_env(kobj, action, NULL); 


} 
参数 action 是 个 枚 举 型 变量 ， 其 类 型 定义 为 ; 
<include/linux/kobject.h> 
enum kobject action { 
KOBJ ADD, 
KOBJ REMOVE, 
KOBJ CHANGE, 
KOBJ MOVE, 


KOBJ ONLINE, 
KOBJ OFFLINE, 
KOBJ MAX 


h 


pue RY AS AB EN T kset 对 象 的 一 些 状态 变化 , 此 处 使 用 的 是 KOBJ ADD, 表明 将 向 系统 
添加 一 个 kset WE. 


kobject uevent 函数 的 主体 功能 是 在 kobject uevent env 调用 中 完成 的 ， 这 个 函数 的 实现 比 
较 元 长 ， 这 里 只 列 出 它 的 部 分 核心 功能 代码 ; 


<lib/kobject_uevent.c> 


"TTT 


int kobject_uevent_env(struct kobject *kobj, enum kobject action action, 
char *envp_ext[]) 
{ 


struct kobj uevent env *env; 


/此 处 的 while 循环 用 来 查找 kobj Pr 3t B 85 3 TL kset 
top kobj = kobj; 
while (!top_kobj->kset && top_kobj->parent) 
top kob]j = top kobj-»parent; 
/如 果 当 前 kobj 没有 隶属 的 kset， 那 么 它 将 不 能 使 用 uevent 机 制 
if (!top_kobj->kset) { 
pr debug("kobject: "%s' (op): %s: attempted to send uevent " 
“without kset!\n", kobject_name(kobj), kobj, 
_ func ); 
return -EIN VAL; 
} 
/H 3| kobj 所 隶属 的 顶层 kset 的 uevent 操作 集 对 象 uevent_ops 
kset = top_kobj->kset; 
uevent_ops = kset->uevent_ops; 


/如 果 kobj->uevent_suppress=1, 3 ià kobj 不 希望 使 用 uevent 机 制 
if (kobj->uevent_suppress) { 
pr debug("kobject: 90s (Sop): Yos: uevent suppress " 
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"caused the event to drop!\n", 


kobject name(kobj), kobj, func ); 





return Ü; 
} 
i/ 首先 调用 filter 函数 ， 如 果 函 数 返 回 0， 表 上 明 kobj 希望 发 送 的 event 消息 被 顶层 kset 
/过 渡 掉 了 
if (uevent_ops && uevent_ops->filter) 
if ('uevent ops--filter(kset, kobj)) { 
pr. debug("kobject: '%os' (Yap): Yos: filter function " 
"caused the event to drop!\n", 
kobject_name(kobj), kobj, func ); 
return 0; 
j 


/准备 使 用 uevent 机 制 向 用 户 空 间 发 送 event 消息 ， 通 过 add uevent var 添加 环境 变量 
1 信息 
env = kzalloc(sizeof(struct kobj_uevent_env), GFP_KERNEL); 
retval = add uevent var(env, "ACTION=%s", action string); 
if (retval) | 

goto exit; 
retval = add uevent var(env, "DEWPATH=%s", devpath); 
if (retval) 

goto exit; 
retval = add uevent var(env, "SUBS YSTEM=%s", subsystem); 
if (retval) 


goto exit; 


jl 此 处 在 向 用 户 空 间 发 送 event 消息 之 前 ， 给 kset 最 后 一 次 机 会 以 完成 一 些 私 人 事情 
if (uevent_ops && uevent_ops->uevent) { 
retval = uevent_ops->uevent(kset, kobj, env); 
if (retval) { 
pr debug("kobject: "%s' (Yap): Yos: uevent() returned " 
"Yod\n", kobject_name(kobj), kobj, 
. func ,retval); 


goto exit; 


} 


/如 果 配 置 了 CONFIG NET 宏 ， 表 明 内 核 打 算 使 用 nettink 机 制 实 现 uevent 消息 的 发 送 1 
#if defined(CONFIG_NET) 

/* send netlink message */ 

mutex lock(&uevent sock mutex); 


1 如 果 没 有 特别 的 理由 ，CONFIG_NET 都 应 该 被 选中 ， 即 使 运行 Linux 的 机 器 不 打算 与 外 部 世界 进行 网 络 连接 ， 一 些 工 
其 比如 udev 也 需要 有 网 络 子 系统 的 支持 才能 工作 。 
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list_for_each_entry(ue_sk, &uevent_sock_list, list) { 
struct sock *uevent_sock = ue_sk->sk; 
struct sk buff *skb; 
size t len; 


/* allocate message with the maximum possible size */ 
len = strlen(action string) + strlen(devpath) + 2; 

skb = alloc skb(len + env->buflen, GFP KERNEL); 
if (skb) { 


char *scratch; 


/* add header */ 
scratch = skb_put(skb, len); 
sprintf(scratch, "ss@%os", action. string, devpath); 


/* copy keys to our continuous event payload buffer */ 
for (i= 0; i < env->envp_idx; i++) { 

len = strlen(env->envp([i]) + 1; 

scratch = skb_put(skb, len); 

strcpy(scratch, env--envp[i]); 


NETLINK CB(skb).dst group = 1; 

retval = netlink broadcast filtered(uevent sock, skb, 
0, 1, GFP KERNEL, 
kob; bcast filter, 
kobj); 

/* ENOBUFS should be handled in userspace */ 

if (retval == -ENOBUFS) 


retval = 0; 
} else 
retval = -ENOMEM; 
} 
mutex unlock(&uevent sock mutex); 
#endif 


/使 用 uevent_helper 机 制 实现 uevent 
if (uevent_helper[0] && !kobj usermode filter(kobj)) { 
char *argv [3]; 


argv [0] = uevent helper; 
argv [1] = (char *)subsystem; 
argv [2] = NULL; 
retval = add uevent var(env, "HOME=/"); 
if (retval) 
goto exit; 
retval = add uevent var(env, 
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"PATH=/sbin:/bin:/usr/sbin:/usr/bin"); 
if (retval) 
goto exit; 


retval = call usermodehelper(argv[0], argv, 
env->envp, UMH_WAIT_EXEC); 


} 


kobject uevent env 总 体 上 可 以 分 成 三 个 功能 部 分 , 第 一 部 分 用 到 kset->uevent ops， 调 用 其 
中 的 filter 函数 ， 以 决定 kset 对 和 象 当前 状态 的 改变 是 否 要 通知 到 用 户 层 ， 如 果 
uevent_ops->filter(kset，kobj) 返 四 0， 将 不 再 通知 用 户 层 。 不 同 的 kset 对 象 拥有 不 同 的 
uevent ops 对 象 ， 因 此 也 意味 着 不 同 的 kset 都 有 自己 独特 的 uevent ops 操作 集 ， 在 后 续 使 
用 到 uevent_ops 操作 集 的 集体 例子 中 将 再 来 讨论 此 处 的 操作 。 总 之 ， 读 者 需要 记 住 ， 一 个 
kset 对 象 状 态 的 变化 ,将 会 首先 调用 隶属 于 该 kset 对 象 的 uevent ops 操作 集中 的 filter 函数 ， 
以 次 定 是 否 癌 用 户 层 报 告 该 事件 。 


如 果 filter 函数 通过 了 ， 换 名 话说，kset 中 发 生 的 事件 需要 通知 用 户 层 ， 那 么 将 进入 第 二 部 
分 。 第 二 部 分 主要 是 完成 环境 变量 的 设置 ， 在 一 开始 先 通过 env = kzalloc(sizeof(struct 
kobj_uevent_env), GFP 及 ERNEL) 分 配 一 个 人 存 情 环境 变量 的 空间 对 象 env， 接 下 来 把 用 户 空 
间 程 序 可 能 需要 的 环境 变量 通过 add uevent var 国 数 加 入 到 env 中。 如同 第 一 部 分 的 filter 
图 数 一 样 ， 第 二 部 分 在 处 理 完 环境 变量 之 后 ， 会 调用 kset 对 象 的 uevent ops 操作 集中 的 
uevent 函数 ， 这 是 内 核 赋予 kset 通过 该 函数 完成 自己 特定 功能 的 最 后 一 次 机 会 。 


第 三 部 分 是 kobject uevent env 函数 的 亮点 , 也 是 最 有 趣 的 地 方 , 主要 用 来 和 用 户 空 间 进 程 
进行 交互 (或 者 在 内 核 空间 启动 执行 一 个 用 户 空间 的 程序 )。 在 Linux 内 核 中 ， 有 两 种 方式 
完成 这 项 任务 ， 一 个 是 代码 中 由 CONFIG_NET 宏 包 含 的 部 分 ， 这 部 分 代码 通过 netlink 的 
方式 同 用 户 空 间 广 播 当 前 kset X1 S&P BJ uevent 消息 。 另 一 种 方式 是 在 内 核 室 间 启动 一 个 用 
户 空 间 的 进程 ， 通 过 给 该 进程 传递 内 核 设 定 的 环境 变量 的 方式 来 通知 用 户 空 间 kset 对 象 中 
的 uevent 事件 。 虽 然 /sbin/hotplug 方式 已 经 逐渐 被 udev 取代 ， 但 是 因为 /sbin/hotplug 在 内 
核 中 需要 一 个 call usermodehelper 函数 的 支持 ， 这 是 个 比较 有 趣 的 函数 ， 所 以 这 里 我 们 只 
讨论 uevent helper 方式 的 实现 。 


uevent helper 方法 通过 调用 call usermodehelper 来 达到 从 内 核 室 间 运 行 一 个 用 户 室 间 进程 
的 目的 ， 用 户 空间 进程 的 二 进 制 文 件 的 路 径 由 uevent helper 提供 ， 该 变量 是 一 字符 数组 ， 
在 内 核 源 码 中 的 定义 为 : 


«lib/kobject uevent.c» 


下 一 一 一 一 一 一 一 一 一 本 本 
a te eS lu 
€ — mom omo om om o mom mom & on 7& RP Om mo - oo — o - 


char uevent helper[UEVENT. HELPER, PATH. LEN] = CONFIG UEVENT. HELPER PATH; 


CONFIG UEVENT HELPER PATH 是 一 内 核 编译 阶段 的 配置 宏 ， 依 赖 于 CONFIG 
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HOTPLUG， 这 意味 着 如 果 系 统 需 要 支持 设备 的 热 插 拔 等 特性 ， 则 需要 给 出 用 户 空 间 进程 
的 文件 路 径 信 息 。 通 常 ，CONFIG_UEVENT HELPER PATH 会 指向 /sbin/hotplug， 后 者 用 
来 处 理 系统 中 出 现 的 热 插 拔 事件 ， 不 过 现在 的 Linux 系统 多 半 没 有 /sbin/hotplug 这 个 文件 。 


下 面 讨 论 call usermodehelper 函数 的 内 核实 现 。 对 内 核 空间 如 何 运 行 一 个 用 户 空间 的 进程 
感 兴 趣 的 读者 , 或 者 想 深 入 理解 内 核 如 何 支 持 设备 的 hotplug 特性 的 设备 驱动 程序 员 , 也 许 
都 不 应 该 错过 这 里 讨论 的 内 容 。call_ usermodehelper 函数 在 Linux 内 核 中 的 源码 为 ; 


<include/linux/kmod.h> 


statie inline int 000000 
call usermodehelper(char *path, char **argv, char **envp, enum umh wait wait) 
{ 
return call usermodehelper fns(path, argv, envp, wait, NULL, NULL, NULL); 
} 


接 下 来 会 有 很 长 的 一 段 函 数 调用 链 ， 我 们 不 妨 略 过 这 些 不 是 很 精彩 的 部 分 ， 直 接 看 看 核心 
的 代码 。 这 段 函数 调用 链 的 核心 部 分 在 call usermodehelper fns 函数 中 ， 它 的 代码 是 : 


<include/linux/kmod, h> 
static inline int ——0000000000000 
call usermodeheiper fns(char *path, char **argv, char **envp, 

enum umh wait wait, 

int (*init)(struct subprocess info *info), 

void (*cleanup)(struct subprocess info *), void *data) 


struct subprocess info *info; 
gfp t gfp mask = (wait = UMH NO WAIT) ? GFP ATOMIC : GFP KERNEL; 
info = call usermodehelper setup(path, argv, envp, gfp mask); 
if (info — NULL) 
return -ENOMEM; 
call usermodehelper setfns(info, init, cleanup, data); 
return call usermodehelper exec(info, wait); 


} 


call usermodehelper fns 函数 的 设计 思想 是 采用 工作 队列 的 方式 ， 在 call_usermodehelper_ 
setup 函数 内 部 会 初始 化 一 个 工作 队列 的 节点 ; 


INIT_WORK(&sub_info->work, call usermodehelper); 
其 中 sub info 4 — struct subprocess info 类 型 的 变量 , T ÁEBA Fi] AEN ER- ^ ARE, 


sub info 其 他 成 员 用 来 存储 运行 用 户 态 进程 的 一 些 相关 信息 ， 主 要 是 相关 的 环境 变量 。 
. call usermodehelper 是 该 工作 节点 上 的 延迟 执行 的 函数 。 


将 call_usermodehelper setup 中 建立 的 工作 节点 提交 到 工作 队列 的 行为 发 生 在 
call usermodehelper exec 函数 中 ， 其 定义 如 下 : 
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Tr TT rr rrr" 


enum umh wait wait) 
{ 
DECLARE COMPLETION ONSTACK(done); 
int retval — 0; 


helper lock(); 
if (sub _info->path[0] == ^0") 


goto out; 


if (!khelper wq |! usermodehelper disabled) | 
retval = -EBUSY; 
goto out; 


j 


sub info-^complete = &done; 
sub info--wait = wait; 


queue work(khelper wq, &sub_info->work); 

if (wait — UMH NO. WAIT) /* task has freed sub info */ 
goto unlock; 

wait far completion(&done); 

retval = sub info-retval; 


out: 

call usermodehelper freeinfo(sub info); 
unlock: 

helper unlock(); 

return retval; 


; 


该 函数 的 逻辑 功能 很 直观 , 也 许 有 几 个 细节 注意 一 下 会 对 理解 整个 hotplug 的 机 制 会 有 所 帮 
Bj. KÆ khelper wq， 这 是 一 个 工作 队列 ， 其 创建 发 生 在 Linux 系统 初始 化 阶段 : 


<kernel/kmod.c> 


rine a Mam AN M UV me nS ac Gam ec ee | ES mes s ac c em me Uer UC Uv CR UE OR ano nC RU 8c RC 


void — init usermodehelper init(void) 


{ 


E a a me pes er me s eis ams E JS s ms ROG He COE E E E AR E S 


khelper wq = create singlethread workqueue("khelper"); 
} 


JEUX, call usermodehelper exec 函数 通过 引入 一 个 completion 变量 done 来 实现 和 工作 节点 
sub_info->work 上 的 延迟 函数 “call_usermodehelper 的 同步 :函数 通过 queue work(khelper wq, 
&sub_info->work) 将 工作 节点 提交 到 khelper wq 队列 之 后 ， 将 等 待 在 
wait for completion(&done) 语 句 上 。 可 以 猜想 当 延 迟 函 数 — call usermodehelper 执行 完毕 , 会 
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通过 complete 函数 来 唤醒 睡眠 的 call usermodehelper exec FE Zi. 
M. KAE call usermodehelper 要 完成 的 工作 : 


<kernel/kmod.c> 


Wh Ese VE lca d as» eco ms AI S ate UN seca tem ce: ea” UR ams as aS E Ca me m RE Pak es se mr anne gc at cam Ca eee DI UR mes ge eed em UN, Ge tes ais esr ape ee | ey, see pe Mm ae ee “Se e Sy RE Enn ee Uem c ce te ee ge i Uns 


{ 
struct subprocess_info *sub_info = 
container_of(work, struct subprocess info, work); 
enum umh wait wait = sub_info->wait; 


pid t pid; 


/* CLONE VFORK: wait until the usermode helper has execve'd 
* successfully We need the data structures to stay around 
* until that is done. */ 
if (wait == UMH WAIT PROC) 
pid = kernel thread(wait for helper, sub info, 
CLONE FS|CLONE FILES | SIGCHLD), 
else 
pid = kernel thread( — call usermodehelper, sub info, 
CLONE VFORK | SIGCHLD), 


switch (wait) { 

case UMH_NO_WAIT: 
call usermodehelper freeinfo(sub info); 
break; 


case UMH WAIT PROC: 
if (pid > 0) 
break; 
/* FALLTHROUGH */ 
case UMH WAIT EXEC: 
if (pid « 0) 
sub info--retval = pid; 
complete(sub_info->complete); 


; 


该 函数 会 通过 kemel thread 来 生成 一 个 新 的 进程 ，kemel thread 的 调用 将 会 导致 
__call_usermodehelper 中 出 现 两 条 执行 路 径 ， 一 是 父 进程 ， 二 是 子 进 程 ， 也 就 是 新 产生 的 进 
程 。 父 进程 在 调用 kernel thread 后 会 直接 返回 ， 而 子 进 程 则 需要 等 到 首次 被 调度 的 机 会 才 
会 从 kernel thread 返回 ， 因 此 函数 接 下 来 出 现 了 三 个 case 来 处 理 父子 进程 间 的 同步 问题 ， 
不 过 这 不 是 这 里 要 重点 关注 的 话题 。 


因为 当初 在 调用 call usermodehelper 函数 时 指定 的 wait 参数 是 UMH_WAIT_EXEC， 所 以 
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下 面 先 按照 这 个 路 径 进行 讨论 。kernel thread 的 具体 实现 是 讲述 内 核 之 类 的 书籍 应 该 关心 
的 事情 ， 这 里 我 们 只 要 知道 它 会 产生 一 个 新 的 进程 ， 然 后 当 该 进程 被 调度 执行 时 ， 
___call_usermodehelper 函数 会 被 调用 ， 传 递 给 它 的 参数 是 sub_info， 那 里 带 有 要 执行 的 用 
户 空 间 进程 的 路 径 及 环境 变量 等 信息 。 


注意 这 个 函数 最 后 的 complete(sub info->complete)， 它 将 会 唤醒 睡眠 的 
call usermodehelper exec Pi Xt. 


我 们 不 再 给 出 “call usermodehelper 的 完整 代码 ， 在 它 的 内 部 核心 的 调用 是 : 


<kernel/kmod.c> 


ee T ^*^ - €. o£» om ow ee ee -rr 


static int call usermodehelper(void *data) 


{ 


struct subprocess info *sub info = data; 
kernel_execve(sub_info->path, sub_info->argv, sub_info->envp); 


sub_info->retval = retval; 
do_exit(0); 
} 


所 以 ”_call usermodehelper 执行 完毕 后 ， 所 在 的 进程 将 会 因为 do exit. 的 调用 而 从 系统 中 
消失 掉 。 读 者 估计 已 经 猜 到 kernel execve 函数 用 来 在 内 核 空 间 运 行 一 个 用 户 空 间 的 进程 ， 
该 进程 的 路 径 存 放 在 sub info-»path 中 ， 进 程 运行 时 的 环境 变量 等 信息 由 sub_info->argv 和 
sub info->envp 来 提供 。 


kernel execve 是 个 体系 架构 相关 的 函数 ， 这 里 讨论 其 在 x86 架构 上 的 实现 ， 以 满足 那些 好 
奇 心 强 的 读者 : 


«arch/x86/kernel/sys i386 32.c» 


PPP 


int kernel execve(const char *filename, char *const argv[], char *const envp[]) 


( 
long res; 
asm volatile ("push %%ebx ; movl %2,%%ebx ; int $0x80 ; pop %%ebx" 
;"-a"( res) 
:"0"( NR execve), "ri" (filename), "c" (argv), "d" (envp) : "memory"); 
return — res; 


} 


看 到 int $0x80， 知 道 这 将 导致 一 个 系统 调用 。 太 多 的 时 间 我 们 看 到 的 系统 调用 都 是 从 用 户 
空间 发 起 ， 这 里 却 是 从 内 核 空间 发 起 ， 很 有 趣 ， 不 是 吗 ? 不 过 这 样 做 不 会 有 任何 问题 〈 如 
果 读 者 对 x86 的 IDT 和 Linux 系统 调用 的 实现 机 制 很 熟 , 那么 一 定 不 会 对 int $0x80 这 条 指 
令 的 幕后 行为 感到 陌生 )。 进 入 系统 调用 后 , 一 个 很 重要 的 参数 是 系统 调用 号 , Linux 用 eax 
寄存 器 来 保存 系统 调用 号 ， 在 这 段 嵌 入 的 汇编 代码 中 ，_NR_execve 的 值 将 写 入 eax 寄存 
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器 ， 那 就 是 系统 调用 号 了 。 这 个 系统 调用 号 对 应 的 函数 为 sys_execve， 部 分 核心 代码 如 下 : 


<arch/x86/kernel/process.c> 


long sys execve(char — user *name, char — user* user *argv, 
char  user* user *envp, struct pt regs *regs) 


{ 
long error; 
char * filename, 


filename = getname(name); 
error = PTR_ERR (filename); 
error = do_execve(filename, argv, envp, regs); 
putname( filename); 
return error; 
} 


do execve 函数 将 执行 filename 所 对 应 的 进程 文件 ， 这 个 过 程 如 同 在 shell 里 面 执行 一 个 可 
执行 文件 是 一 样 的 了 用户 空间 在 运行 一 个 二 进 制 可 执行 文件 时 ， 也 要 通过 系统 调用 


sys execve 完成 )。 


全 此 ， 我 们 花 了 一 定 的 篇 幅 讨论 了 内 核 空间 如 何 运行 一 个 用 户 空 间 的 可 执行 文件 ， 内 核 基 
于 这 个 机 制 ， 在 kset 的 状态 发 生变 化 时 可 以 通知 到 用 户 进程 ， 后 者 可 以 据 此 完成 相应 的 工 
作 ， 本 章 后 续 部 分 还 会 有 具体 使 用 这 里 讨论 到 的 机 制 的 例子 。 


前 面 的 这 个 话题 是 从 kset_register 讨论 延伸 开 去 的 ， 现 在 已 经 知道 当 向 系统 注册 一 个 kset 
时 可 能 会 发 生 的 事情 ， 理 解 了 这 种 底层 数据 结构 上 的 操作 ， 当 我 们 接 下 来 讨论 设备 驱动 模 
型 的 高 级 部 分 ， 也 即 总 线 、 设 备 与 驱动 时 ， 将 会 加 深 这 里 的 认识 。 


9.2.5 实例 源码 


经 过 以 上 对 kobject 与 kset 的 详细 讨论 后 ， 现 在 可 以 给 出 一 个 完整 的 源码 来 展示 如 何 创建 、 
初始 化 并 向 系统 中 添加 一 个 kobject 对 象 ， 以 及 如 何 通过 sysfs 文件 系统 接口 在 用 户 空间 和 
内 核 空 间 进 行 沟通 ， 另 一 个 有 趣 的 事情 是 它 通 过 /sbin/hotplug 机 制 来 通知 用 户 空间 某 一 个 
kobject 状态 的 变化 。 在 这 个 例子 中 ， 我 们 将 用 自己 编译 的 一 个 应 用 程序 取代 系统 的 
/sbin/hotplug2， 该 应 用 程序 会 打出 一 些 环境 变量 ， 记 录 在 /var/log/messages 文件 中 。 


下 先是 内 核 模块 的 源码 : 


#include <linux/module.h> 
#include <linux/kernel.h> 
#include <linux/kobject.h> 


2 不 过 估计 现在 大 部 分 的 Linux 的 发 布 中 都 没有 提供 现成 的 /sbin/hotplug 工具 ， 笔 者 的 Ubuntu 就 没有 。 
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#include <linux/sysfs.h> 
#include <linux/slab.h> 


static struct kobject *parent; 
static struct kobject *child; 
static struct kset *c_kset: 


static unsigned long flag = 1; 


static ssize_t att show(struct kobject *kobj, struct attribute *attr, char *buf) 
{ 

size t count = 0; 

count += sprint &bulf[count], ““olu\n", flag); 


return count; 


static ssize_t att_store(struct kobject *kobj, struct attribute *attr, 
const char “buf, size t count) 


flag = buf[0] = '0'; 

/通过 kobject uevent 来 将 内 核对 象 kobj 的 状态 变化 通知 用 户 程 序 

switch(flag) { 

case 0: 
kobject uevent(kobj, KOBJ ADD); 
break; 

case ]: 
kobject uevent(kobj, KOBJ REMOVE); 
break; 

case 2: 
kobject uevent(kobj, KOBJ CHANGE); 
break; 

case 3: 
kobject uevent(kobj, KOBJ MOVE); 
break; 

case 4: 
kobject uevent(kobj, KOBJ ONLINE); 
break; 

case 5: 
kobject uevent(kobj, KOBJ OFFLINE); 


return count; 


static struct attribute cld att = | 
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name = "cldatt", 
node = S IRUGO | 5_IWUSR, 
H 


static const struct sysfs ops att ops = { 
show = att show, 
Store = att store, 


H 


static struct kobj type cld ktype — ( 
sysfs ops = &att ops, 
fi 


static int kobj demo init(void) 
{ 


int err; 
parent = kobject create and add("pa obj", NULL); 


child = kzalloc(sizeof(*child), GFP KERNEL); 
if(!child) 
return PTR ERR(child); 


/一 个 能 够 通知 用 户 空间 状态 变化 的 kobject ARR FE — Akset, BE 
Hsubsystem， 所 以 此 处 给 内 核对 象 child 创建 一 个 kset 对 象 c_kset 
c_kset = kset create and add("c kset", NULL, parent), 
if(!c kset) 
retum -1; 
child->kset = c kset; 


err — kobject init and add(child, &cld ktype, parent, "cld obj"); 


if(err) 
return etr; 


WA AAT R child 创建 一 个 属性 文件 
err sysfs create file(child, &cld att); 


return err; 
static void kobj demo exit(void) 
{ 


sysfs_remove_file(child, &cld_att); 


kset unregister(c kset); 
kobject del(child); 
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kobject_del(parent); 
I 


module init(kobj demo init); 
module exit(kobj demo exit); 


MODULE LICENSE("GPL"); 
MODULE AUTHOR("dennis chen (2? AMDLinuxFGL ^"); 
MODULE DESCRIPTION("A simple kernel module to demo the kobject behavior"); 


以 上 代码 在 2.6.39 内 核 版 本 的 Linux 系统 上 编 诺 通过， 对 应 的 Makefile 为 : 


obj-m := kobj_demo.o 
KERNELDIR := /lib/modules/$(shell uname -r)/build 
PWD = S(shell pwd) 


default: 
$(MAKE) -C $(KERNELDIR) M=$(PWD) modules 
clean: 
rm -f *.o *.ko *.mod.* 
将 编译 好 的 内 核 模块 kobj demo.ko 通过 insmod 加 入 系统 后 ， 除 了 在 /sys 目录 下 生成 parent 
与 child 内 核对 象 所 对 应 的 入 口 点 外 ， 还 会 在 /sys/pa_ obj/cld obj 目录 下 生成 child 内 核对 象 
的 一 个 属性 文件 cldatt: 
root@AMDLinuxFGL:/sys/pa_obj/cld obj ls -l 
total 0 
-rw-r--r-- 1 root root 4096 Jun 18 21:25 cldatt 


可 以 很 方便 地 通过 sysfs 文件 系统 接口 来 改变 内 核 模块 中 的 变量 flag: 


root@AMDLinuxFGL:/sys/pa_obj/cld_obj# cat cldatt 

l 

root@AMDLinuxFGL./sys/pa_obj/cld_obj# echo '8' > cldatt 
root(aQ)AMDLinuxFGL /sys/pa obj/cld obj cat cldatt 

8 


HE POEEUB EOS S child 的 uevent 特性 如 何 工 作 , 用 来 编译 应 用 程序 /sbin/hotplug 的 源码 为 ; 


#include <stdio.h> 
#include <syslog.h> 


extern char ** environ: 


int main(int argc, char *argv[]) 
i 


324 ”深入 Linux 设备 驱动 程序 内 核 机 制 


char ** var; 
syslog(LOG INFO|LOG LOCALO, "-------------------------------------- --\n"); 
syslog(LOG INFO|LOG LOCALO, "argy[l]=%s\n", argv[1]); 
for(var = environ; *var != NULL; ++ var) 
syslog(LOG INFO|LOG LOCAT, "env=“osin", *var); 
syslog(LOG INFO|LOG LOCALDOQ, -= \n"); 


return 0); 


} 
首先 清空 /var/log/messages X fF, XXPEfE T A is/sbin/hotplug 向 里 面 记 录 的 内 容 : 
root(@AMDLinuxFGL./home/dennis/Linux/book/chap09/kobj# cat /dev/null > /var/log/messages 
其 次 需要 把 /sbin/hotplug 机 制 打开 ， 这 由 /proc/sys/kernet 下 的 hotplug 文件 来 决定 : 
root@AMDLinuxFGL:/proc/sys/kernel# echo "/sbin/hotplug" > hotplug 
然后 用 insmod 加 入 模块 kobj_demo.ko: 
root@dAMDLinuxF GL. /home/dennis/Linux/book’chap09/kobj# insmod kobj_dema.ka 
最 后 来 看 /var/log/messages 中 的 内 容 : 


root@ AMDLinwF GL.:/home/dennis/Linux/book/chap09/kobj# cat /var/log/messages 
Jun 19 03:57:11 AMDLinuxFGL hotplug: -------------------------------------- -- 

Jun 19 03:57:11 AMDLinuxFGL hotplug: argv{1]=module 

Jun 19 03:57: H AMDLinuxFGL hotplug: env=ACTION=add 

Jun 19 03:57:11] AMDLinuxFGL hotplug: env=DEVPATH=/module/kobj_demo 

Jun 19 03:57:11 AMDLinuxFGL hotplug: env=SUBSYSTEM=module 

Jun 19 03:57:11 AMDLinuxFGL hotplug: envy- SEQNUM- 1463 

Jun 19 03:57:11 AMDLinuxFGL hotplug: env- HOME -/ 

Jun 19 03:57:11 AMDLinuxFGL hotplug: env —- PATH —/sbin:/bin:/usr/sbin:/usr/bin 
Jun 19 03:57:11 AMDLinuxFGL hotplug: ---------------------------------------- 


上 面 的 信息 显然 是 模块 加 载 器 加 载 kobj demo 模块 时 发 出 的 通知 。 接 下 来 通过 写 内 核对 象 
child 的 属性 文件 cldatt 来 模拟 其 状态 变化 : 


root(Q@AMDLinuxFGL./sys/pa_obj/cld_obj# echo '0' > cldatt 
root@AMDLinuxFGL,/sys/pa_obj/cld_obj# echo 了 > cldatt 
root@AMDLinuxFGL:/sys/pa_obj/cld_obj# echo '2' > cldatt 
root@AMDLinuxFGL./sys/pa_obj/cld_obj# echo 了 > cldatt 
root@AMDLinuxFGL:/sys/pa_obj/cld_obj# echo '4'> cldatt 
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root@AMDLinuxFGL:/sys/pa_obj/cld_obj# echo '5' > cldatt 
再 看 看 /varlog/messages 中 的 信 息 有 何 变化 : 


root@AMDLinuxFGL./home/dennis/Linux/book/chap09/kobj# cat /var/log/messages 


Jun 19 03:57:11 AMDLinuxFGL hotplug: 
Jun 19 03:57: 11 AMDLinuxFGL hotplug: 
Jun 19 03:57:11 AMDLinuxFGL hotplug: 
Jun 19 03:57: 11 AMDLinuxFGL hotplug: 


Jun 19 03:57:11 AMDLinuxFGL hotplug: 
Jun 19 03:57:11 AMDLinuxFGL hotplug: 


Jun 19 03:57:11 AMDLinuxFGL hotplug: 
Jun 19 03:57:11] AMDLinuxFGL hotplug: 
Jun 19 03:57:11] AMDLinuxFGL hotplug: 


Jun 19 04:02:38 AMDLinuxFGL hotplug: 
Jun 19 04:02:38 AMDLinuxFGL hotplug: 
Jun 19 04:02:38 AMDLinuxFGL hotplug: 
Jun 19 04:02:38 AMDLinuxFGL hotplug: 
Jun 19 04:02:38 AMDLinuxFGL hotplug: 
Jun 19 04:02:38 AMDLinuxFGL hotplug: 
Jun 19 04:02:38 AMDLinuxFGL hotplug: 
Jun 19 04:02:38 AMDLinuxFGL hotplug: 
Jun 19 04:02:38 AMDLinuxF GL hotplug: 
Jun 19 04:02:43 AMDLinuxFGL hotplug: 
Jun 19 04:02:43 AMDLinuxFGL hotplug: 
Jun 19 04:02:43 AMDLinuxF GL hotplug: 
Jun 19 04:02:43 AMDLinuxF GL hotplug: 
Jun 19 04:02:43 AMDLinuxFGL hotplug: 
Jun 19 04:02:43 AMDLinuxFGL hotplug: 
Jun 19 04:02:43 AMDLinuxFGL hotplug: 
Jun 19 04:02:43 AMDLinuxFGL hotplug: 
Jun 19 04:02:43 AMDLinuxFGL hotplug: 
Jun 19 04:02:47 AMDLinuxFGL hotplug: 
Jun 19 04:02:47 AMDLinuxFGL hotplug: 
Jun 19 04:02:47 AMDLinuxFGL hotplug: 


Jun 19 04:02:47 AMDLinuxFGL hotplug: 


Jun 19 04:02:47 AMDLinuxFGL hotplug: 


argv[ 1] ^module 

env- ACTION -add 

env - DEVPATH —/module/kobj demo 
envy - SUBSYSTEM -module 

envy -SEQONUM- 1463 

envy -HOME =; 

env=PATH =/sbin-/bin:/usr/sbin:/usr/bin 


argv[1]—c kset 

env=ACTION=add 
env=DEVPATH=/pa_ obj/cld obj 

env -SUBSYSTEM-c kset 

eny -SEQNUM - 1464 

envy -HOME-/ 

env —PATH =/sbin:/bin:/usr/sbin:/usr/bin 
argv[1]—c kset 

env- ACTION —-remove 

eny-DEVPATH —pa obj/cld obj 

env -SUBSYSTEM c kset 

envy -SEQNUM- 1465 

env=HOME=/ 
env=PATH=/sbin./bin:/usr/sbin:/usr/bin 


SSS ug NEN ee oc. ee ee ee CAN 


argv[ I ]=c_kset 
env=ACTION=change 
env=DEVPATH=/pa_obj/cld_obj 
env=SUBSYSTEM=c_kset 
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Jun 19 04:02:47 AMDLinuxFGL hotplug: 
Jun 19 04:02:47 AMDLinuxF GL hotplug: 
Jun 19 04:02:47 AMDLinuxFGL hotplug: 
Jun 19 04:02:47 AMDLinuxF GL hotplug: 
Jun 19 04:02:50 AMDLinuxFGL hotplug: 
Jun 19 04:02:50 AMDLinuxF GL hotplug: 
Jun 19 04:02:50 AMDLinuxFGL hotplug: 
Jun 19 04:02:50 AMDLinuxFGL hotplug: 
Jun 19 04:02:50 AMDLinuxFGL hotplug: 
Jun 19 04:02:50 AMDLinuxFGL hotplug: 
Jun 19 04:02:50 AMDLinuxFGL hotplug: 
Jun 19 04:02:50 AMDLinuxFGL hotplug: 
Jun 19 04:02:50 AMDLinuxFGL hotplug: 
Jun 19 04:02:54 AMDLinuxFGL hotplug: 
Jun 19 04:02:54 AMDLinuxFGL hotplug: 
Jun 19 04:02:54 AMDLinuxFGL hotplug: 
Jun 19 04:02:54 AMDLinuxFGL hotplug: 
Jun 19 04:02:54 AMDLinuxFGL hotplug: 
Jun 19 04:02:54 AMDLinuxFGL hotplug: 
Jun 19 04:02:54 AMDLinuxF GL hotplug: 
Jun 19 04:02:54 AMDLinuxFGL hotplug: 
Jun 19 04:02:54 AMDLinuxFGL hotplug: 
Jun 19 04:02:58 AMDLinuxFGL hotplug: 
Jun 19 04:02:58 AMDLinuxFGL hotplug: 
Jun 19 04:02:58 AMDLinuxFGL hotplug: 
Jun 19 04:02:58 AMDLinuxFGL hotplug: 
Jun 19 04:02:58 AMDLinuxFGL hotplug: 
Jun 19 04:02:58 AMDLinuxFGL hotplug: 
Jun 19 04:02:58 AMDLinuxFGL hotplug: 
Jun 19 04:02:58 AMDLinuxFGL hotplug: 
Jun 19 04:02:58 AMDLinuxFGL hotplug: 


env=SEQNUM=1466 

env=HOME=/ 
env=PATH=/sbin:/bin-/usr/sbin./usr/bin 
argv[1]—c kset 

env=ACTION=move 
env=DEVPATH=/pa_objfeld_obj 
env=SUBSYSTEM=c_kset 
env=SEQNUM=1467 

env=HOME=/ 

env— PATH —/sbin:/bin:/usr/sbin:/usr/bin 


argv/1]-—c kset 

env-ACTION —online 

env -DEVPATH-/pa obj/cld obj 
env=SUBSYSTEM=c_kset 
env=SEQNUM=1468 

env=HOME=/ 
env=PATH=/sbin./bin:/usr/sbin:/usr/bin 
argv[i ]=c_kset 

env=ACTION=offline 
env=DEVPATH=/pa_obj/cld_obj 
env=SUBSYSTEM=c_kset 
env=SEQNUM=1469 

env=HOME=/ 
env=PATH=/sbin:/bin:/usr/sbin:/usr/bin 


re ee = "i i I N 


从 上 面 的 输出 可 以 看 到 ， 模 拟 的 5 个 状态 变化 一 个 不 落地 被 /sbin/hotplug 捕捉 到 了 。 


本 例 展示 了 在 Linux 设备 模型 最 底层 kobject 一 级 的 sysfs 文件 系统 的 作用 以 及 对 设备 热 插 
拔 机 制 的 支持 ， 虽 然 内 核 已 经 通过 更 高 层次 的 bus. device 与 driver 3x55 $8 [8] F2 Fr 0 BERE 
T sysfs 和 uevent 底层 的 这 些 操 作 ， 但 是 我 们 应 该 知道 bus、device 与 driver 这 一 层面 的 诸 
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如 属性 文件 相关 操作 以 及 对 设备 热 插 拔 特 性 的 支持 ， 其 幕后 的 原理 其 实 就 发 源 于 此 。 
这 段 文字 临 结 束 时 ， 我 又 突 发 奇想 ， 不 妨 插 个 U 盾 到 机 器 里 来 看 看 会 发 生 什么 ， 于 是 


/var/log/messages PRA T TERIH iH : 


Jun 19 04:11:45 AMDLinuxFGL kernel: [ 5803.856011] usb 3-1: new full speed USB device number 3 


using uhci_hed 
Jun 19 04:11:46 AMDLinuxFGL hotplug: 


Jun 19 04:11:46 AMDLinuxFGL hotplug: argv[1]=usb 


Jun 19 04:11:46 AMDLinuxFGL hotplug: 


env=ACTION=add 


Jun 19 04:11:46 AMDLinuxFGL hotplug: env=DEVPATH=/devices/pci0000: 00/0000: 00: La. O/usb3/3-1 


Jun 19 04:11:46 AMDLinuxFGL hotplug: 
Jun 19 04:11:46 AMDLinuxFGL hotplug: 
Jun 19 04:11:46 AMDLinuxF GL hotplug: 
Jun 19 04:11:46 AMDLinuxFGL hotplug: 
Jun 19 04:11:46 AMDLinuxFGL hotplug: 
Jun 19 04:11:46 AMDLinuxFGL hotplug: 
Jun 19 04:11:46 AMDLinuxFGL hotplug: 
Jun 19 04:11:46 AMDLinuxFGL hotplug: 
Jun 19 04:11:46 AMDLinuxFGL hotplug: 
Jun 19 04:11:46 AMDLinuxFGL hotplug: 
Jun 19 04:11:46 AMDLinuxFGL hotplug: 
Jun 19 04:11:46 AMDLinuxFGL hotplug: 
Jun 19 04:11:46 AMDLinuxFGL hotplug: 
Jun 19 04:11:46 AMDLinuxFGL hotplug: 
Jun 19 04:11:46 AMDLinuxFGL hotplug: 
Jun 19 04:11:46 AMDLinuxFGL hotplug: 


env-SUBSYSTEM-usb 

env -MAJOR- 189 
env=MINOR=258 
env=DEVNAME -bus/usb/003/003 
env=DEVTYPE=usb_device 
env=PRODUCT=8e6/181 3/100 
env=TYPE=0/0/0 
env=BUSNUM=003 
env=DEVNUM=003 
env=SEQNUM=1470 
env=HOME=/ 
env=PATH=/sbin:/bin:/usr/sbin:/usr/bin 


——— SS — —À —— ÁÀ— — —À eee eee oe 


argv[1]-—usb 
env=ACTION=add 


Jun 19 04:11:46 AMDLinuxFGL hotplug: env=DEVPATH=/devices/pci0000:00/0000:00: 1a.0/usb3/3-1/ 


3-1:1.0 

Jun 19 04:11:46 AMDLinuxFGL hotplug: 
Jun 19 04:11:46 AMDLinuxF GL hotplug: 
Jun 19 04:11:46 AMDLinuxFGL hotplug: 
Jun 19 04:11:46 AMDLinuxFGL hotplug: 
Jun 19 04:11:46 AMDLinuxFGL hotplug: 


env -SUBSYSTEM-usb 

env -DEVTYPE-usb interface 
envy - PRODUCT -8e6/1813/100 
env=TYPE=0/0/0 
env=INTERFACE=3/0/0 


Jun 19 04:11:46 AMDLinuxFGL hotplug: env=MODALIAS=usb:v08E6p1813d0100dc00dsc00dp00i 


c03iscO0ip00 
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Jun 19 04:11:46 AMDLinuxFGL hotplug: env- SEQNUM- 1471 

Jun 19 04:11:46 AMDLinuxFGL hotplug: env-HOME-/ 

Jun 19 04:11:46 AMDLinuxFGL hotplug: envy -PATH —/sbin:/bin:/usr/sbin:/usr/bin 
Jun 19 04:11:46 AMDLinuxFGL hotplug: -------------------------------------- zs 


虽然 我 们 在 这 个 例子 中 使 用 了 目 己 编译 的 一 个 可 执行 文件 , 但 是 /sbin/hotplug 完全 可 以 是 一 
个 脚本 程序 ， 实 际 上 /sbin/hotplug 的 用 法 就 是 通过 脚本 来 加 载 和 卸载 模块 的 。 如 果 系 统 中 有 
udevd 守护 进程 ， 那 么 它 应 该 一 直 在 监听 kobject_uevent 通过 netlink 广播 出 去 的 uevent 数 
EE. 无 论 如 何 ， 内 核 空间 通过 kobject uevent 这 个 函数 实现 了 将 内 核 中 发 生 的 一 些 事件 通 
知 到 了 用 户 空 间 。 


9.3 总线、 设备 与 驱动 


前 面 已 经 介绍 了 Linux 设备 驱动 模型 的 底层 数据 结构 及 相关 操作 ， 现 在 开始 讨论 该 模型 的 高 
层 部 分 ， 也 是 Linux 下 设备 驱动 程序 员 与 之 打交道 最 多 的 部 分 。 高 层 部 分 的 核心 分 为 三 个 组 
件 ， 正 如 本 节 标 题 揭 示 的 那样 ， 分 别 是 总 线 (bus). WE (device) 和 驱动 (driver)， 它 们 构 
成 了 Linux 设备 驱动 模型 这 一 宏大 建筑 的 外 在 表现 。 接 下 来 将 依次 讨论 每 个 组 件 , 看 看 Linux 
引入 的 这 个 新 的 设备 模型 到 底 给 系统 ， 给 设备 驱动 程序 员 带 来 了 哪些 好 处 和 不 足 。 


9.3.1 总 线 及 其 注册 


电线 可 以 看 成 Linux 设备 驱动 模型 这 座 建 筑 的 核心 框架 ， 系 统 中 其 他 的 设备 与 驱动 将 紧密 
团结 在 以 总 线 为 核心 的 设备 模型 的 周围 ， 完 成 各 自 的 使 命 。 不 过 设备 驱动 程序 员 在 系统 中 
创建 一 个 新 的 总 线 的 机 会 并 不 多 。 了 驱动 模 型 中 的 总 线 ， 既 可 以 是 实际 物理 总 线 (比如 PCI 
总 线 和 DC 总 线 等 ) 的 抽象 ， 也 可 以 是 出 于 驱动 模型 架构 需要 而 产生 的 虚拟 “平台 ”总 线 ， 
因为 一 个 符合 Linux 驱动 模型 的 设备 与 驱动 必须 挂靠 在 一 根 总 线 上 ， 无 论 它 是 实际 存在 的 
总 线 还 是 系统 虚拟 出 的 总 线 。 


内 核 为 总 线 对 和 象 定义 的 数据 结构 是 bus_type， 其 完整 定义 如 下 : 


<include/linux/device.h> 


struct bus type { 
const char *name; 
struct bus attribute *bus attrs; 
struct device attribute — *dev attrs; 
struct driver attribute “drv attrs; 


CAO OA ch GOGH UG Ro Te o o o0 d. — c c c c ga» as wo — o c— — og Gb Go Gm oh 3 3 8 7e Roo o o 4 Lh. — — a — o o—o— 4B o— o-o— Pe eK eee eee 


int (*match)(struct device *dev, struct device driver *drv); 
int (*uevent)(struct device *dev, struct kobj_uevent env *env); 
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int (*probe)(struct device *dev); 
int (*remove)(struct device *dev); 
void (*shutdown)(struct device *dev); 


int (*suspend)(struct device *dev, pm message t state); 
int (*resumeY(struct device *dev); s 


const struct dev pm ops *pm; 
struct subsys private *p; 
h 


下 面 先 简单 介绍 一 下 其 中 的 一 些 主要 成 员 ， 这 里 的 介绍 虽然 有 点 抽象 ， 但 是 当 我 们 在 本 节 
后 续 看 到 这 些 成 员 具 体 的 使 用 方式 时 ， 相 信 读 者 应 该 会 加 深 此 处 的 理解 : 


const char *name 
总 线 的 名 称 。 如 同 每 个 人 都 有 一 个 名 字 一 样 ， 总 线 也 不 例外 。 
struct bus_attribute *bus_attrs 
总 线 的 属性 ， 包 括 操 作 这 些 属性 的 一 组 函数 ， 都 包含 在 struct bus attribute 结构 体内 。 
struct device attribute — *dev attrs 
挂 载 到 该 总 线 上 的 设备 的 属性 ， 功 能 逻辑 与 总 线 属性 一 样 。 
struct driver attribute *drv_attrs 
挂 载 到 该 总 线 上 的 驱动 的 属性 ， 功 能 逻辑 与 总 线 属性 一 样 。 


int (*match)(struct device *dev, struct device_driver *drv) 


总 线 用 来 对 试图 挂 载 到 其 上 的 设备 与 驱动 执行 的 匹配 操作 。 除 了 这 个 函数 ，struet 
bus type 结构 中 还 定义 了 其 他 一 些 操作 函数 ， 这 里 不 再 一 一 讲述 。 读 者 很 快 就 会 在 本 章 后 
续 的 讨论 中 看 到 内 核对 它们 的 使 用 。 


const struct dev_pm_ops *pm 
总 线 上 一 组 跟 电 源 管理 相关 的 操作 集 ， 用 来 对 总 线 上 的 设备 进行 电源 管理 。 
struct subsys private *p 


一 个 用 来 管理 其 上 设备 与 驱动 的 数据 结构 ， 在 内 核 中 的 定义 为 : 


<drivers/base/base.h> 


全 
一 


struct subsys private { 
struct kset subsys; 
struct kset *devices kset; 
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struct kset *drivers kset; 

struct klist klist. devices; 

struct klist klist drivers; 

struct blocking, notifier head bus notifier; 
unsigned int drivers autoprobe:] » 

struct bus *bus; 


struct list head class interfaces; 
struct kset glue dirs; 

struct mutex class mutex; 

struct class *class; 


}; 


其 中 ，struct kset subsys 用 来 表示 该 bus 所 在 的 子 系 统 , 在 内 核 中 所 有 通过 bus register 注册 
进 系统 的 bus 所 在 的 kset 都 将 指向 bus_kset， 换 句 话说 bus kset 是 系统 中 所 有 bus 内 核对 
象 的 容器 ， 而 新 注册 的 bus 本 身 也 是 一 个 kset XH. struct kset *drivers kset 表示 该 bus 
上 所 有 了 动 的 一 个 集合 ,struct kset *devices kset 则 表示 该 bus 上 所 有 设备 的 一 个 集合 .struct 
klist klist devices 和 struct klist klist drivers 则 分 别 表示 该 bus 上 所 有 设备 与 驱动 的 链表 。 
drivers autoprobe 用 来 表示 当 向 系统 (确切 地 说 是 系统 中 某 一 总 线 ) 中 注册 某 一 设备 或 者 驱 
动 的 时 候 ， 是 否 进 行 设 备 与 驱动 的 绑 定 操 作 struct bus type *bus 指向 与 struct 
bus type private 对 象 相 关联 的 buse 


为 了 便于 接 下 来 对 总 线 、 设 备 与 驱动 的 讨论 ， 我 们 从 总 线 的 角度 ， 给 出 图 9-3 所 示 三 者 之 
间 的 互联 层次 关系 ;: 





9.3 bus. dev 与 dry 的 层次 关系 


图 9-3 展示 了 一 个 总 线 对 象 所 衍生 出 来 的 拓扑 关系 ， 这 种 拓扑 关系 主要 通过 bus type 中 的 
struct subsys private *p 成 员 来 体现 ,在 这 个 成 员 中 ，struct kset subsys 标识 了 系统 中 当前 总 
£k 5x 5j bus kset 间 的 隶属 关系 ， 而 struct kset *drivers kset 和 struct kset *devices kset 则 
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是 在 向 系统 注册 当前 新 总 线 时 动态 生成 的 容纳 该 总 线 上 所 有 驱动 与 设备 的 kset, 与 此 对 应 ， 
两 个 klist 成 员 则 以 链表 的 形式 将 该 总 线 上 所 有 的 驱动 与 设备 链接 到 了 一 起 。 


Linux 内 核 中 针对 总 线 的 一 些 主要 操作 有 : 
Q buses init 


buses init 请 数 揭示 了 总 线 在 系统 中 的 起 源 ， 在 系统 的 初始 化 阶段 ， 就 通过 buses init ER EX 
为 系统 中 后 续 的 bus HERE HER, VERI] SCHO : 


<drivers/base/bus. C> 


A 


int init buses_init(void) 
{ 
bus_kset = kset_create_and_add("bus", &bus uevent ops, NULL); 
if (!bus_kset) 
return -ENOMEM; 
return 0; 


} 


前 面 已 经 介绍 过 kset create and add 函数 ， 此 处 理解 buses init 函数 应 该 没有 什么 问题 ， 它 
将 创建 一 个 名 称 为 “bus” 的 kset 并 将 其 加 入 到 syss 文件 系统 树 中 ， 注 意 这 里 的 
bus uevent ops 定义 了 当 “bus” 这 个 kea 中 有 状态 变化 时 ， 用 来 通知 用 户 空间 uevent 消息 
的 操作 集 。 前 面 在 讨论 kset 时 知道 ， 当 某 个 kset 中 有 状态 的 变化 时 ， 如 果 需 要 向 用 户 空间 
A event 消息 ,将 由 该 kset 的 最 顶层 kset 来 执行 ,因为 bus_kset 是 系统 中 所 有 bus subsystem 
最 顶层 的 kset， 所 以 bus 中 的 uevent 调用 最 终 会 汇集 到 这 里 的 bus_uevent_ops 中 。 这 个 操 
作 集 只 定义 了 一 个 filtter 操作 ,意味 着 当 “bus "kset 中 发 生 状 态 变 化 时 ,会 通过 bus_uevent_ ops 
中 的 filter 函数 先行 处 理 ， 以 决定 是 否 通 知 用 户 态 空间 。bus_uevent_ops 定义 如 下 : 


<d rivers/base/bus. c> 


a -E -E er a a c 


static const struct kset uevent ops bus uevent ops- { 
filter = bus uevent filter, 

E 

<drivers/base/bus.c> 


了 


一 A Tr 


static int bus uevent filter(struct kset *kset, ， struct kobject *kobj) 
{ 
struct kobj type *ktype = get ktype(kobj); 
if (ktype — &bus_ktype) 
return 1; 
return Q, 


} 


如 果 要 求 发送 uevent 消息 的 kobj 对 象 类 型 不 是 总 线 类 型 (bus _type)， 那 么 函数 将 返回 0, 
意味 着 uevent 消息 将 不 会 发 送 到 用 户 空 间 ， 所 以 bus uevent ops 使 得 bus kset 只 用 来 发 送 
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bus 类 型 的 内 核对 象 产生 的 uevent 消息 。 


buses init 将 在 sysfs 文件 系统 的 根 目录 下 建立 一 个 “bus” 目 录 ， 在 用 户 空间 看 来 ， 就 是 
/sys/bus。buses_init 函数 创建 的 “bus ”总线 将 是 系统 中 所 有 后 续 注 册 总 线 的 祖先 。 


O bus register 


该 函数 用 来 向 系统 中 注册 一 个 bus， 其 部 分 核心 代码 如 下 : 


{ 


int retval; 
struct subsys private *priv; 


priv = kzalloc(sizeof(struct subsys private), GFP KERNEL); 
if (!priv) 
return -ENOMEM; 


priv->bus = bus; 


bus->p = priv, 
BLOCKING_INIT_NOTIFIER_HEAD(&priv->bus_notifier); 


retval = kobject_set_name(&priv->subsys.kobj, "os", bus-»name); 
if (retval) 


goto out; 


priv->subsys.kobj.kset = bus kset; 
priv->subsys.koby.ktype = &bus ktype; 
ptiv->drivers_autoprobe = 1; 


1 在 /sysybus 目录 下 为 当前 注册 的 bus 生成 一 个 新 的 目录 
retval = kset_register(&priv->subsys); 
if (retval) 

goto out; 


i 生成 bus 的 属性 文件 
retval = bus create file(bus, &bus attr uevent); 
if (retval) 

goto bus uevent fail; 


1 为 当前 bus 产生 容纳 设备 的 kset 容器 

priv->devices_kset = kset create and add("devices", NULL, 
&priv->subsys.kobj); 

if (!priv->devices_kset) { 
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retval = -ENOMEM; 
goto bus devices fail; 


/为 当前 bus 产生 容纳 驱动 的 kset 容器 
priv->drivers kset= kset create and add("drivers", NULL, 
&priv->subsys.kobj); 
if (!priv->drivers_kset) 1 
retval = -ENOMEM; 
goto bus drivers fail; 


/初始 化 bus 上 的 设备 与 驱动 的 链表 
klist_init(&priv->klist_devices, klist_devices get, klist_devices put); 
klist_init(&priv->klist_drivers, NULL, NULL); 


/3] 35 BI bus 增加 probe 相关 的 属性 文件 
retval = add probe files(bus); 
if (retval) 

goto bus probe files fail; 


retval = bus add attrs(bus); 
if (retval) 
goto bus attrs fail; 


pr debug("bus: 'Yes': registered\n", bus->name); 
return 0; 


bus attrs fail: 
remove probe files(bus); 
bus probe files fail: 
kset_unregister(bus->p->drivers kset); 
bus drivers fail: 
kset_unregister(bus->p->devices kset); 
bus devices fail: 
bus remove file(bus, &bus attr uevent); 
bus uevent fail: 
kset unregister(&bus-^p--subsys); 


out: 
kfree(bus->p); 
bus->p = NULL; 
return retval; 

} 


国 数 首先 分 配 一 个 struct subsys private 类 型 的 对 象 , 然后 通过 kobject set name 为 bus 所 在 
的 内 核对 象 设 定 名 称 ， 该 名 称 将 显示 在 sysfs 文件 系统 树 中 。 前 面 提 到 ，bus 作为 一 个 kset 


334 ”深入 Linux 设备 驱动 程序 内 核 机 制 


类 型 的 内 核对 象 ， 其 对 象 属性 等 特性 体现 在 struct subsys private 对 象 的 subsys 成 员 中 ， 这 
是 个 kset 型 变量 ， 所 以 注册 一 个 bus， 将 同时 赋予 该 bus 特定 的 属性 特质 ， 这 由 下 面 两 条 
语句 完成 : 


priv->subsys.kobj.kset = bus kset; 
priv->subsys.kobj.ktype = &bus ktype; 


第 一 条 语句 指明 了 当前 注册 的 bus 对 象 所 属 的 上 层 kset X1 $8, 就 是 buses_init 中 创建 的 名 为 
“bus” AY kset。 第 二 条 语句 指明 了 当前 注册 的 bus 的 属性 类 型 bus ktype， 后 者 定义 了 该 特 
定 bus 上 的 一 些 与 总 线 属性 文件 相关 的 操作 ; 


<drivers/base/bus.c> 


m static struct kobj_type bus_ktype= £ 
sysfs ops = &bus sysfs ops, 
ji 
bus sysfs ops 中 的 操作 主要 是 用 来 显示 (show) WARA (store) 当前 注册 的 bus 在 sysfs 
文件 系统 中 的 属性 。 


国 数 中 的 kset_register(&priv->subsys) 用 来 将 当前 操作 的 bus 所 对 应 的 kset 加 入 到 sysfs 文件 
系统 树 中 ， 因 为 priv->subsys.kobj.parent = NULL J H. priv->subsys.kobj.kset = bus kset， 所 
以 当前 注册 的 bus 对 应 的 kset 的 目录 将 建立 在 /sys/bus “44. 


bus create file(bus, &bus attr uevent) 将 为 该 bus 创建 一 属性 文件 。 关于 bus 的 属性 问题 , 稍 
后 将 另 开 一 节 予 以 讨论 。 


接 下 来 可 以 看 到 有 两 个 kset create and. add 调用 : 


priv->devices_kset = kset create and add("devices", NULL, &priv->subsys.kobj); 
priv-»drivers kset = kset create and add(" drivers", NULL, &priv->subsys.kobj); 


前 面 讨论 过 kset_create_and_add 函数 , 它 将 生成 一 个 kset 对 象 并 将 其 加 入 到 sysfs 文件 系统 
c. 注意 这 里 在 调用 kset_create_and_add 函数 时 ，parent BAH) A &priv->subsys.kobj, iXX 
味 着 将 在 当前 正在 问 系 统 注册 的 新 bus 目录 下 产生 两 个 kset 目录 ,分 别 对 应 新 bus 的 devices 
和 drivers, f XE bus 的 名 称 是 “new bus”， 那 么 反应 到 /sys 文件 目录 中 就 是 
/sys/bus/new bus/devices #1/sys/bus/new_bus/drivers. 


图 9-4 反应 了 通过 bus register 同系 统 注册 一 个 新 的 busl MATER EE ESYKC R: 


图 中 虚线 部 分 是 将 bus] 通过 bus register 注册 进 系统 时 所 产生 的 层次 关系 结构 。 首 先 代表 
bus] 的 一 个 kset 对 象 将 被 产生 出 来 并 且 加 入 到 sysfs 文件 系统 中 ， 该 kset 的 parent 内 核对 
SA buses init 函数 中 所 产生 的 bus kset。 其 次 bus register 通过 调用 kset create and add 
函数 产生 连接 到 bus] 上 的 devices kset 和 drivers kset 两 个 集合 ， 对 应 到 sysfs 文件 系统 ， 

将 会 在 bus] 的 目录 下 产生 两 个 新 的 目录 “devices” 和 “drivers”。 最 后 为 了 让 用 户 空 间 看 
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到 或 者 重新 配置 busl 上 的 某 些 属性 值 , bus register 调用 bus create file 函数 为 busl 产生 一 
些 属性 文件 ， 这 些 属性 文件 也 将 位 于 /sys/bus/busl 目录 之 下 ， 属 性 文件 实际 上 向 用 户 室 间 
提供 了 一 种 接口 ， 使 得 用 户 程序 可 以 通过 文件 的 方式 来 显示 某 一 内 核对 象 的 属性 或 者 重新 
配置 这 一 属性 。 





MUT EC EL 





UU 
^ d 
fa Som. T ed 
Dh codem 


parent parent “* 


: — devices kset á bus create file oS. drivers kset °", 
` Isys/bus/busi/devices ` | /sys/bus/bus1/drivers : 
^ r dE iie à E 





图 9-4 通过 bus register 向 系统 注册 一 根 总 线 busl 


9.3.2 ”总线 的 属性 


总 线 属性 代表 着 该 总 线 特 有 的 信息 与 配置 ， 如 果 通 过 sysfs 文件 系统 为 总 线 生成 属性 文件 ， 
那么 用 户 空间 的 程序 可 以 通过 该 文件 接口 的 方式 很 容易 地 显示 或 者 更 改 该 总 线 的 属性 。 根 
据 实际 需要 ， 可 以 为 总 线 创 建 不 止 一 个 属性 文件 ， 每 个 文件 代表 该 总 线 的 一 个 或 一 组 属性 
信息 。 总 线 属 性 在 内 核 中 的 数据 结构 为 : 


<include/linux/device.h> 


IS EE LLL A RRS Ra a i IL em ace a la ea, a ee ee es ec ea ae ae 


struct bus_attribute { 

struct attribute attr; 

ssize t (*show)(struct bus type *bus, char *buf); 

ssize t (*store)(struct bus type *bus, const char *buf, size t count); 
h 


成 员 变量 attr 表示 总 线 的 属性 信息 ， 其 类 型 为 struct attribute: 
«include/linux/sysfs.h» 


SEE EEE EEE eee a a LI A LLL LLL ll. J24J44522522 2222522292979 eee ee wee eee 
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struct bus. attribute 的 另外 两 个 成 员 show 与 store 分 别 用 来 显示 和 更 改 总 线 的 属性 。 内 核定 
义 有 一 个 宏 BUS_ATTR， 用 来 方便 为 总 线 定 义 一 个 属性 对 象 : 


<include/linux/device. h> 


A TT 


#define BUS_ATTR(_name, mode, show, store)  ' 
struct bus attribute bus attr ## name = — ATTR( name, mode, show, store) 


<jnclude/linux/sysfs.h> | 
.— define, ATTR( name, mode, show, store) (^ - 
attr ^ [.name =  stringify( name), .mode = mode }, \ 
.Show- show, A 
store — store, \ 


} 


BUS ATTR 宏 将 定义 一 个 以 “bus_attr ”开头 的 总 线 属性 对 和 草 ， 而 生成 总 线 属性 文件 则 需 
要 使 用 bus create file 函数 ， 


<drivers/base/bus. c» 


int bus create fi le(struct bus , type *bus, : struct 1 bus _ attribute *atr) 
{ 
int error; 
if (bus get(bus)) | 
error = sysfs_create_file(&bus->p->subsys.kobj, &attr->attr); 
bus put(bus); 
} else 
error = -EINVAL; 
return error; 


} 


sysfs create file 用 来 在 sysfs 文件 树 中 创建 一 个 属性 文件 ， 这 里 不 会 讨论 sysfs 实现 这 个 函 
数 的 细节 。 我 们 关注 的 是 ， 用 户 层 的 应 用 程序 如 何 利 用 总 线 属性 文件 的 接口 来 显示 和 更 改 
总 线 属性 。 这 里 以 bus register 函数 中 的 add probe files 调用 为 例 ， 后 者 会 用 BUS_ATTR 
宏 定义 一 个 总 线 属性 , 然后 为 之 生成 一 个 属性 文件 (读者 可 以 在 /sys/bus 目录 中 的 任 一 总 线 
目录 下 发 现 drivers_autoprobe 文件 )。 


通过 BUS ATTR Zi, add probe files 为 此 定义 的 总 线 属性 为 ; 


<drivers/base/bus.c> 


static BUS_ATTR(drivers_autoprobe, S IWUSR|S_IRUGO, 
show drivers autoprobe, store_drivers_autoprobe); 


上 面 的 宏 将 产生 一 个 总 线 属性 对 象 bus attr drivers autoprobe， 该 文件 的 模式 为 $S TWUSR | 
S IRUGO, BE root 用 户 而 言 具 有 读 与 写 的 权限 。 
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显示 该 总 线 属性 的 函数 为 show_drivers_autoprobe: 


{ 
return sprintf(buf, "%od\n", bus->p->drivers_autoprobe); 
} 
static ssize_t store drivers autoprobe(struct bus type *bus, 
const char *buf, size t count) 


( 
if (buf[0] == "0 
bus->p->drivers_autoprobe = 0; 
else 
bus->p->drivers_autoprobe = 1; 
return count, 
} 


通过 上 面 这 个 函数 实现 ， 可 以 发 现 该 属性 文件 向 用 户 空间 提供 了 一 个 显示 和 更 改 
bus->p->drivers_autoprobe 成 员 的 接口 。 下 面 看 一 个 用 户 室 间 如 何在 shell 里 面 显示 和 更 改 一 
个 bus 的 drivers autoprobe 成 员 的 例子 ， 比 如 对 于 /sys/bus/pci IU zi, TE Linux shell 里 面 : 


dennis(@ubuntu:/sys/bus/pci$ cat drivers autoprobe 
I 


输出 的 1 表明 当前 PCI 总 线 的 drivers autoprobe 成 员 值 为 1。 要 更 改 这 个 值 , 可 以 使 用 如 下 
命令 3; 


root@AMDLinuxFGL:/home/dennis/book # echo 0 > drivers autoprobe 
命令 成 功 执行 后 ， 再 用 “cat drivers autoprobe ”命令 ， 就 会 发 现 输出 已 经 是 0 了。 


如 果 读 者 对 用 户 空间 进程 如 何 调用 到 属性 文件 的 过 程 (show 和 store) 感 兴趣 ， 应 该 回 过 头 
来 看 看 “内 核对 和 象 kobject 的 属性 ”一 节 。 在 那里 兽 提 到 在 构造 sysfs 文件 系统 的 超级 块 时 ， 
内 核 会 调用 到 sysfs init inode HAL, 这 个 函数 为 sysfs 文件 系统 中 的 inode 初始 化 了 相关 的 操 
作对 象 top 和 i_fop, 这 样 对 于 在 sysfs 文件 系统 中 生成 总 线 属性 文件 的 bus. create file 而 言 ， 
它 生 成 的 属性 文件 被 用 户 空间 的 shell 命令 cat 操作 时 ， 将 利用 到 inode 上 i fop 操作 和 集 : 


<fs/sysfs/inode.c> 


‘Tar Tr 


static void sysfs_init_inode(struct sysfs dirent *sd, struct inode *inode) 
{ 


case SYSFS KOBJ ATTR: 


3 如 果 出 现 权限 不 够 的 错误 信息 ， 通 过 sudo chmod 命令 将 该 文件 的 mode 修改 成 别 的 用 户 也 具有 写 权限 即 可 。 
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inode->1 size = PAGE SIZE; 
inode->i fop = &sysfs file operations; 
break; 

j 


sysfs file operations 的 定义 为 : 


<fs/sysfs/file.c> | 
const struct file operations sysfs file operations = { 
read = sysfs read file, 
write = sysfs write file, 
seek = generic file llseek, 
open = sysfs open file, 
release = sysfs release, 
poll =sysfs_poll, 


R 


所 以 shell 环境 下 的 cat 命令 最 终 会 调用 到 sysfs_read_file 函数 ,在 后 者 调用 的 fill_ read. buffer 
中 ， 将 调用 到 总 线 属 性 对 象 中 的 show 函数 : 


{ 
count = ops->show(kobj, attr sd->s attr.attr, buffer->page),; 


} 


这 里 只 是 给 出 了 用 户 空间 与 内 核 空间 通过 总 线 属 性 文件 交互 的 通道 框架 ， 鉴 于 具体 的 实现 
细节 已 经 偏离 本 章 的 主题 ， 故 不 再 具体 讨论 ， 感 兴趣 的 读者 可 以 自行 研究 sysfs 文件 系统 的 
内 部 实现 。 


9.3.3 设备 与 驱动 的 绑 定 


在 继续 讨论 设备 与 驱动 的 话题 之 前 ， 先 来 看 看 Linux 设备 驱动 模型 中 的 一 个 重要 概念 W 
备 与 驱动 的 绑 定 (binding)。 这 里 的 绑 定 ， 简 单 地 说 就 是 将 一 个 设备 与 能 控制 它 的 驱动 程序 
结合 到 一 起 的 行为 。 两 个 内 核对 象 间 的 结合 自然 是 靠 各 自 背 后 的 数据 结构 中 的 茶 些 成 员 来 
完成 。 


总 线 在 设备 与 驱动 绑 定 的 过 程 中 发 挥 着 核心 作用 : 总 线 相 关 的 代码 屏 殴 了 大 量 底层 琐碎 的 
技术 细节 ， 为 驱动 程序 员 们 提供 了 一 组 使 用 友好 的 外 在 接口 ， 从 而 简化 了 驱动 程序 的 开发 
工作 。 在 总 线 上 发 生 的 两 类 事件 将 导致 设备 与 驱动 绑 定 行为 的 发 生 : 一 是 通过 
device register 函数 问 某 一 bus 上 注册 一 设备 ， 这 种 情况 下 内 核 除了 将 该 设备 加 入 到 bus 上 
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的 设 甸 链表 的 尾 端 ， 同 时 会 试图 将 此 设备 与 总 线 上 的 所 有 驱动 对 象 进行 绑 定 操作 当然 ， 
操作 归 操 作 ， 能 否 成 功 则 是 另外 一 回 事 ); 二 是 通过 driver register 将 某 一 驱动 注册 到 其 所 
属 的 bus 上 ， 内 核 此 时 除了 将 该 驱动 对 象 加 入 到 bus 的 所 有 驱动 对 象 构成 的 链表 的 尾部 ， 
也 会 试图 将 该 驱动 与 其 上 的 所 有 设备 进行 绑 定 操作 。 


下 面 从 代码 的 角度 看 看 设备 与 驱动 的 绑 定 到 底 意 味 着 什么 。 当 调用 device register 向 某 一 
bus 上 注册 一 设备 对 象 时 ，device_bind_driver 函数 会 被 调用 来 将 该 设备 与 它 的 驱动 程序 绑 
定 起 来 : 


<drivers/base/dd.c> 
int device bind driver(struct device *dev) 
{ 

int ret; 

ret = driver sysfs add(dev); 

if (!ret} 

driver bound(dev); 
return ret; 


} 
其 中 driver sysfs add 用 来 在 sysfs 文件 系统 中 建立 绑 定 的 设备 与 驱动 程序 之 间 的 链接 符号 
文件 。 而 driver bound 函数 中 关于 绑 定 的 最 核心 的 代码 为 ; 
klist_add_tail(&dev->p->knode_driver, &dev->driver->p->klist_devices); 


用 来 将 设备 private 结构 中 的 knode_driver 节点 加 入 到 与 该 设备 绑 定 的 驱动 private 结构 中 的 
klist_devices 链表 中 。 所 以 所 谓 设 备 与 驱动 的 绑 定 ， 从 代码 的 角度 看 ， 其 实 是 在 两 者 之 间 通 
过 某 种 数据 结构 的 使 用 建立 了 一 种 关联 的 渠道 。 


93.4 设备 
设备 在 内 核 中 的 数据 结构 为 struct device， 访 类 型 的 实例 是 对 具体 设备 的 一 个 抽象 ; 


<include/linux/device.h> 


一 


struct device { 
struct device *parent; 
struct device private — *p; 
struct kobject kobj; 
const char *init name; 
struct device type *type; 
struct mutex mutex; 


struct bus type — *bus; 

struct device driver *driver; 
void *platform data; 
struct dev pm info power; 
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#ifdef CONFIG_NUMA 


int numa_node; 
#endif 
u4 *dma mask; 
u64 coherent dma mask; 


struct device dma parameters *dma parms; 
structlist head dma pools; 


struct dma coherent mem *dma mem; 
struct dev archdata archdata; 

dev t devt; 

spinlock t devres lock; 

struct list head — devres head; 

struct klist node knode class; 

struct class *class; 

const struct attribute group **groups; 

void (*release)(struct device *dev); 


n 
struct device * parent 

当前 设备 的 父 设 备 。 
struct device_private*p 

指 疝 该 设备 的 驱动 相关 的 数据 。 
struct kobject kobj 

代表 struct device 的 内 核对 象 。 
const char *init_name 


设备 对 象 的 名 称 。 在 将 该 设备 对 象 加 入 到 系统 中 时 ， 内 核 会 把 init name 设置 成 kobj 
成 员 的 名 称 ， 后 者 在 sysfs 中 表现 为 一 个 目录 。 


struct bus_type *bus 
设备 所 在 的 总 线 对 象 指针 。 
struct device_driver *driver 


用 以 表示 当前 设备 是 否 已 经 与 它 的 driver HTT BE, WRAHA NULL， 说 明 当 前 
设备 还 没有 找到 它 的 driver. 


系统 中 的 每 个 设备 都 是 一 个 struct device 对 象 ， 内 核 为 容纳 所 有 这 些 设备 定义 了 一 个 
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kset———devices kset， 作 为 系统 中 所 有 struct device 类 型 内 核对 象 的 容器 。 同 时 ， 内 核 将 系 
统 中 的 设备 分 为 两 大 类 :block 和 char. 每 类 对 应 一 个 内 核对 草 , 分 别 为 sysfs_dev_block_kobj 
和 sysfs dev char kobj， 目 然 地 这 些 内 核对 旬 也 在 sysfs 文件 树 中 占有 对 应 的 入 口 点 ，block 
和 char 内 核对 象 的 上 级 内 核对 象 为 dev_kobj。 设备 相关 的 这 些 事 儿 发 生得 比较 早 , 在 Linux 
系统 初始 化 期 间 由 devices init 来 完成 ， 有 关 设 备 的 故事 就 从 那里 开始 : 


<drivers/base/core.c> 


int init devices init(void 


{ 


devices kset = kset create and add("devices", &device uevent ops, NULL); 
dev_kobj = kobject create and add("dev", NULL); 

sysfs dev block kobj = kobject create and add("block", dev kobj); 
sysfs dev char kobj = kobject create and add("char", dev kobj); 


return Ü; 


; 


这 个 函数 的 操作 反映 到 /sys 文件 目录 下 ， 就 是 生成 了 /sys/devices、/sys/dev、/sys/dev/block 
和 /sys/dev/char。 


Linux 内 核 中 针对 设备 的 主要 操作 有 : 
© device initialize 


用 于 设备 的 初始 化 ， 该 函数 的 实现 为 : 


一 一 一 一 一 


{ 
dev->kobj.kset = devices kset; 
kobject_init(&dev->kobj, &device ktype); 
INIT LIST HEAD(&dev--dma pools); 
mutex_init(&dev->mutex); 
lockdep_set_novalidate_class(&dev->mutex); 
spin lock init(&dev->devres lock); 
INIT LIST HEAD(&dev--devres head); 
device pm init(dev); 
set dev node(dev, -1); 

j 


这 个 函数 主要 用 于 初始 化 dev 的 一 些 成 员 ， 其 中 dev-»kobj.kset = devices kset 表明 了 dev 
所 属 的 kset 对 象 为 devices kset, device pm init 用 来 初始 化 dev 与 电源 管理 相关 的 部 分 。 


QD device register 
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用 来 向 系统 注册 一 个 设备 ， 在 源码 中 的 实现 为 : 


<drivers/base/core.c> 


eR OT LOU Ol 


int device_register(struct device *dev) 
{ 

device initialize(dev); 

return device add(dev); 
} 


所 以 device_register 内 部 除了 调用 device_initialize 来 初始 化 dev 对 象 外 ,还 会 通过 device_add 
的 调用 将 设备 对 象 dev 加 入 到 系统 中 。 


device add 是 个 非常 重要 的 函数 ， 对 于 理解 Linux Re RRA RAH. HRB 
码 看 起 来 不 是 很 紧凑 ， 因 此 这 里 不 打算 列 出 其 实现 代码 ， 而 是 将 按照 其 实现 的 几 大 逻辑 功 
能 进行 讨论 。 该 函数 的 原型 为 : 


«include/linux/device.h» 


| -O omo o— o— o. om o—-c— Lm —u---- ul. mam XL - — €'E LÀ O- - U"Hóou n od o: mom om oc a c —o— om o- -rr TT Ln E mop a a E umm mLct 


extern int must check device add(struct device *dev); 
我 们 把 device add ph fci — 26 be Be He ERI DIRE FLARA: 
在 sysfs 文件 系统 中 建立 系统 硬件 拓扑 关系 结构 图 


建立 代表 dev 的 内 核对 象 kobject 的 层次 关系 ,简单 地 说 就 是 为 dev 找到 它 的 上 级 Cparent) 
内 核对 象 ， 这 个 层次 关系 决定 了 dev 加 入 到 系统 后 在 sysfs 文件 树 中 的 目录 层次 。 代 码 中 关 
于 这 种 层次 关系 的 建立 虽然 不 是 很 难 理解 ， 但 是 比较 烦琐 ， 而 且 牵 涉 到 dev->class 成 员 ， 
根据 dev->class 与 dev->parent 的 值 分 成 四 种 情况 讨论 : 


(1) dev->class 和 dev->parent #84 4 


由 于 在 对 dev 对 象 调用 device initialize 函数 时 ， 曾 指定 了 dev 所属 的 kset A devices kset: 
dev->kobj.kset = devices_Kkset， 所 以 这 种 情况 下 在 将 dev->kobj 加 入 系统 时 ， 内 核 会 将 
devices kset 所 对 应 的 kobj 为 dev->kobj 的 parent, 所 以 dev->kobj.parent = devices_kset->kobj. 
由 于 devices kset 是 在 devices init 中 建立 的 设备 的 顶层 kset， 这 种 情况 下 dev 对 象 将 会 在 
/sys/devices 目录 下 产生 一 个 新 的 目录 /sys/devices/dev->init_ name. 


(2) dev->class 4%, dev->parent 不 为 空 
这 种 情况 下 对 应 dev 对 象 的 新 目录 将 建立 在 dev->parent->kobj 对 应 的 目录 之 下 。 
(3) dev->class PHZ, dev->parent A 


dev->class 不 为 空 意味 着 该 dev 属于 某 一 class， 对 于 这 种 情况 系统 将 为 dev-»kobj.parent 建 
立 一 个 虚拟 上 层 对 象 “virtual”， 如 此 ， 将 dev 对 象 加 入 系统 将 会 在 /sys/devices/virtual 中 产 
生 一 个 新 的 目录 /sys/devices/virtual/dev->init name. 
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(4) dev->class 和 dev->parent 都 不 为 空 


这 种 情况 下 要 看 dev->parent->class BAAS, WRAAB, W dev 的 parent kobject 为 
dev-»parent--kobj, B[ 42i &&ffj P Bk kobject。 


如 果 dev->parent->class 为 室 ， 则 内 核 需要 在 dev->class->p->class dirs.list 中 寻找 是 否 有 满 
SEH kobject H$ k, (4 k->parent=&parent->kobj, WER FIARZ dev->kobj 的 parent 
kobj 就 是 dev 设备 的 父 设备 的 内 风 kobject， 否 则 需要 重新 生成 一 个 kobject WEA 
dev->kobj 的 父 kobj。 


调用 device_create_sys_dev_entry(dev) 建 立 一 个 新 的 链接 ， 该 链接 的 目的 和 源 取决 于 
dev->class。 链 接 源 的 产生 : 


<drivers/base/core. c 


xod me mo oU" om o o Go € oa ap d o0 07 an an —— c7 Loch J& GÀ Gm om OCHO CE Um mE UA m m mk mo mom ED Lm mo Tm m momo Roda momo mom m omo qm mL c— og am un co ono amo 7o oL £o o Roh UE GRO EG ds bdo — 0 0 0-0 0 d o — o - — -o-* 


static struct kobject *device to dev kobj(struct device *dev) | 
1 
struct kobject *kobj; 
if (dev->class) 
kobj = dev->class->dev_kobj; 
else 
kobj = sysfs_dev_char_kobj; 
return kobj; 
} 


假设 dev WRN WHS major=251，minor=0， 设 备 名称 为 dev->init name, MA: 
如 果 dev->class 为 空 ， 则 新 链接 为 /sys/dev/char/251:0 /sys/devices/dev->init_name; 


如 果 dev->class 不 为 至 ， 那 么 链接 文件 的 源头 将 在 dev->class->dev_kobj 所 对 应 的 目录 下 产 
生 ， 目 的 链接 则 为 /sys/devices/virtual/dev->init_ name. 


调用 bus add device(dev) ， 在 /sys/bus/devices 目录 下 创建 一 个 链接 文件 ， 指 向 


/sys/devices/dev->init_name. 


假设 设备 的 名 称 dev->init_name 为 “demodev”， 主 次 设备 号 分 别 为 251 和 0，dev->class 为 
空 ， 那 么 通过 device add 向 系统 添加 “demodev” 设 备 后 ，sysfs 文件 树 中 反映 的 系统 硬件 
拓扑 结构 如 图 9-5 所 示 ， 图 中 阴影 部 分 为 device_add 新 增 的 目录 和 链接 文件 ; 


这 里 的 描述 有 点 抽象 , 不 过 对 这 种 层次 关系 建立 细节 的 理解 对 于 驱动 程序 员 而 喜 并 不 重要 。 
在 sysfs 文件 树 中 创建 与 该 dev 对 象 对 应 的 属性 文件 
uevent attr 是 dev 对 银 的 一 个 属性 ， 其 定义 如 下 : 


static struct device_attribute uevent_attr = 
__ATTR(uevent, S_IRUGO |S IWUSR, show_uevent, store uevent); 
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device create file(dev, &uevent attr) 


bus kset devices kset dev kobj 













^ Isys/bus /bus 1 


kset ` 


isys/bus/bus2 ) 


: " »* 1 " | 
i 2 link. y 
parent ." \ | ta i 
, device create file 


\devices_kset link 
| * 
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图 9-5 device add 添加 一 名 为 “demodev” 的 设备 后 的 sysfs 拓扑 图 


前 面 说 过 ， 属 性 文件 以 文件 的 形式 向 用 户 空间 的 程序 提供 了 一 个 显示 和 更 改 内 核对 章 属 性 
的 方法 。 这 种 显示 和 更 改 内 核对 象 属性 的 方法 由 创建 该 内 核对 象 的 模块 提供 ， 换 句 话说 ， 
如 果 设 备 驱 动 程序 需要 给 用 户 空间 的 程序 提供 这 种 能 力 ， 那 么 由 驱动 程序 来 实现 这 些 显 示 
和 更 改 属 性 的 函数 。 对 于 device register 而 言 ， 内 核 已 经 为 uevent_attr 属性 提供 了 默认 的 显 
示 和 修改 的 函数 show_uevent 和 store_uevent. 


如 果 说 前 面 介 绍 的 两 个 功能 还 稍 显 平 淡 的 话 ， 下 面 的 这 个 功能 就 比较 有 趣 了 。 如 果 dev 对 
象 中 指定 的 主 设备 号 不 为 0: if (MAJOR(dev->devt))， 那 么 函数 除了 会 在 sysfs 中 新 增 一 个 
属性 文件 “dev” 外 ， 还 会 调用 devtmpfs create node(dev)fE/dev 目录 下 动态 生成 一 个 设备 
节点 。 读 者 也 许 知 道 ， 在 Linux 的 早期 ，/dev 目录 下 的 设备 节点 需要 用 mknod 命令 手动 添 
加 ， 现 在 通过 devtmpfs 文件 系统 ， 就 可 以 在 device register 注册 设备 时 自动 向 /dev 目录 添 
加 设备 节点 ， 该 证 点 的 名 字 就 是 dev->init_name。 

关于 devtmpfs 文件 系统 ， 它 是 内 核 建立 的 男 一 棵 独立 的 VFS 53, RAH (mount) 到 用 
户 空 间 的 /dev 目录 之 上 ， 在 内 核 中 devtmpfs 主要 用 来 动态 生成 设备 节点 。 关 于 这 个 文件 系 
统 的 实现 细节 , 本 书 不 再 详细 讨论 , 对 此 感 兴趣 的 读者 可 以 傅 考 hittp://www.embexperts.com/ 
viewthread.php?tid=4&extra=page%3D1 . 

XT class 的 相关 操作 ， 将 在 接 下 来 的 “class” 一 节 中 专门 讨论 。 


一 个 体现 设备 驱动 模型 中 总 线 、 设 备 与 驱动 相互 沟通 的 重要 函数 调用 
bus_probe_device(dev)， 该 函数 的 实现 如 下 : 
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<drivers/base/bus.c 


void bus_probe_device(struct device *dev) 


{ 
struct bus type *bus = dev->bus; 
int ret; 


if (bus && bus->p->drivers_autoprobe) { 
ret = device attach(dev); 
WARN ON(ret < 0); 


} 


如 果 满 足 让 语句 中 的 条 件 ， 将 会 调用 device attach 试图 将 当前 的 设备 绑 定 到 它 的 驱动 程序 
E, device_attach 进行 绑 定 的 核心 代码 如 下 : 


<drivers/base/dd.c 


int device_attach(struct device *dev) 


{ 


if (dev->driver) { 

device bind driver(dev); 
) else { 

ret = bus for each drv(dev-^»bus, NULL, dev, — device attach); 
j 


} 


如 果 dev->driver KAZ, HAMNER dev 已 经 和 它 的 驱动 程序 进行 了 绑 定 ， 这 种 
情况 下 只 需 调 用 device_bind_driver(dev)Z sysfs 文件 树 中 建立 dev 与 其 驱动 程序 之 间 的 互联 
关系 。 


如 果 dev->driver 为 空 ， 表 明 当 前 设备 对 象 dev 还 没有 和 它 的 驱动 程序 绑 定 ， 此 时 需要 遍历 
dev 所 在 总 线 dev->bus 上 挂 载 的 所 有 驱动 程序 对 象 ， 


bus_for_each_drv(dev->bus, NULL, dev, — device attach); 


2 eR Ds Per ERE URGE FROM drv, WR device attach(drv, dev) 进 行 绑 定 : 


«drivers/base/dd.c» 
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static int — device attach(struct device driver *drv, sad * data) 


( 


struct device *dev — data; 


if (driver match device(drv, dev)) 
return 0; 
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return driver probe device(drv, dev); 
j 


函数 中 的 driver match. device(drv, dev) 用 来 判断 drv 与 dev 是 否 匹 配 ， 其 内 部 的 实现 为 ; 


return drv->bus->match ? drv->bus->match(dev, drv) : 1; 


me Rag OO RASA dv HAERA ENT match 方法 ， 那 么 就 调用 它 来 进行 是 否 匹 配 的 
判断 ; 如 果 总 线 没 有 定义 match, ABA driver match device(drv, dev) A ŽORE] |， 表明 匹配 
成 功 ， 不 成 功 返 回 0，device attach 国 数 继续 对 dev->bus 上 的 下 一 个 驱动 程序 对 象 进 行 匹 
配 操作 。 


WR driver match device 匹配 成 功 ， 那 么 将 调用 driver_probe_device(drv，dev) 将 drv 和 dev 
进行 顷 定 ， 这 个 工作 实际 上 是 由 really probe ef BOR SURE: 


<drivers/base/dd.c> 


m Uu E cae a a ee et ae pe me en ee a Sir fe ee ee me ing ye ae a SL ee a ee ee c 


static int really_probe(struct device *dev, struct device_driver *drv) 


{ 


dev->driver = drv; 
if (driver_sysfs_add(dev)) { 
printk(KERN ERR "%s: driver sysfs add(%os) failedin", 
. func ,dev name(dev)) 
goto probe failed; 
} 


if (dev->bus->probe) { 

ret = dev->bus->probe(dev); 
) else if (drv->probe) { 

ret = drv->probe(dev); 
} 


driver bound(dev); 


} 


函数 首先 将 当前 驱动 程序 对 象 drv 赋值 给 dev->driver, 然后 , 如 果 dev->bus->probe FHF, 
即 dev 所 在 的 总 线 定义 了 probe 方法 ， 则 调用 之 ， 否 则 如 果 drv 对 象 定义 了 该 方法 ， 就 调用 
drv->probe(dev)， 所 以 现在 知道 了 我 们 driver 中 定义 的 probe 函数 什么 时 候 会 被 调用 到 。 这 
种 设计 机 制 给 驱动 程序 提供 了 一 个 探测 硬件 的 机 会 ， 即 在 其 probe 函数 中 作出 判断 ， 当 前 
的 设备 是 不 是 自己 所 支持 的 ， 以 及 当前 设备 是 否 处 于 工作 状态 等 。 驱 动 程序 中 实现 的 probe 
函数 如 果 认 为 探测 成 功 ， 那 么 应 该 返回 0。 


最 后 的 driver bound(dev) 用 来 将 驱动 程序 的 一 些 数据 信息 加 入 到 dev HR. 
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Q device unregister 


用 来 将 一 个 设备 从 系统 中 注销 掉 ， 其 实现 为 ; 


—- a ee 


( 
device del(dev); 
put device(dev); 


} 
PRI aX AY) E EXE device del F: 


void device del(struct device *dev) 

{ 
struct device *parent = dev->parent; 
struct class interface *class intf; 


if (dev->bus) 
blocking notifier call_chain(&dev->bus->p->bus._ notifier, 
BUS NOTIFY DEL DEVICE, dev); 
/i 设备 电源 管理 函数 ， 关 闭 本 设备 电源 同时 通知 其 父 设 备 { 如 果 有 的 话 ) 
device pm remove(dev); 
dpm sysfs remove(dev); 
/有 父 设备 ， 将 当前 设备 从 父 设备 所 属 链 表 中 删除 
if (parent) 
klist_del(&dev->p->knode_parent); 
ROK dev 设备 对 象 的 主 设备 号 不 为 0 
if (MAJOR(dev->devt)) { 
/动态 删除 设备 节点 文件 
devtmpfs delete node(dev); 
device remove sys dev entry(dev); 
/删除 设备 的 属性 文件 
device remove file(dev, &devt attr); 
} 
if (dev->class) { 
device remove class symlinks(dev); 
mutex_lock(&dev->class->p->class_mutex); 
/* notify any interfaces that the device is now gone */ 
list for each entry(class intf, &dev->class->p->class_interfaces, node) 
if (class_intf->remove_dev) 
class_intf->remove_dev(dev, class intf); 
/* remove the device from the class list */ 
klist_del(&dew->knode class); 
mutex_unlock(&dev->class->p->class_mutex); 
} 


device remove file(dev, &uevent attr); 
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device remove attrs(dev); 
bus remove device(dev); 
devres release all(devy; 


if (platform notify remove) 
platform notify remove(dev); 

kobject uevent(&dev--kobj, KOBJ REMOVE), 

cleanup device parent(dev); 

kobject_del(&dev->kobj); 

put_device(parent); 


9.3.5 驱动 
内 核 为 驱动 对 象 定义 的 数据 结构 是 struct device driver: 


<include/linux/device.h> 


Sr er A i i i ip es ee ed i ee ey eee a, re xum 


struct device_driver { 


ee Ha Ee mom dE CES momo momo omm RISO om 


const char *name; 

struct bus type — *bus; 

struct module * owner; 
const char *mod_name; 


bool suppress bind attrs; 


int (*probe) (struct device *dev); 

int (*remove) (struct device *dev); 

void (*shutdown) (struct device *dev); 

int (*suspend) (struct device *dev, pm message t state); 
int (*resume) (struct device *dev); 


const struct attribute group **groups; 
const struct dev pm ops *pm; 
struct driver private *p; 
È 
const char *name 
驱动 的 名 称 。 
struct bus type *bus 
驱动 所 属 的 总 线 。 


struct module *owner 


驱动 所 在 的 内 核 模块 。 
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int (*probe) (struct device *dev) 


驱动 程序 所 定义 的 探测 函数 。 当 在 总 线 bus 中 将 该 驱动 与 对 应 的 设备 进行 绑 定 时 ， 内 
核 会 首先 调用 bus 中 的 probe HAT CARR bus 实现 了 probe MAL), WF bus 没有 实现 自 
己 的 probe 函数 ， 那 么 内 核 会 调用 驱动 程序 中 实现 的 probe 函数 。 


int (*remove) (struct device *dev) 


驱动 程序 所 定义 的 卸载 函数 。 当 调用 driver unregister MAZE PMA—P ISM Be, 
内 核 会 首先 调用 bus 中 的 remove PRAE Cl Ei bus 实现 了 remove 函数 )， 如 果 bus 没有 实 
FLA RY remove 函数 ， 那 么 内 核 会 调用 驱动 程序 中 实现 的 remove 函数。 


驱动 上 的 主要 操作 有 : 
O driver find 


在 一 个 bus 的 drivers kset 集合 中 查找 指定 的 驱动 ， 函 数 原型 为 ; 


struct device driver *driver find(const char *name, struct bus type *bus) 


参数 name 是 要 查找 的 驱动 的 名 称 , 参数 bus 指明 在 哪个 总 线 上 进行 当前 的 查找 。 如 果 查 找 
成 功 ， 将 返回 该 驱动 对 象 的 指针 ， 否 则 返回 0。 


© driver register 


该 函数 用 来 向 系统 注册 一 个 驱动 ， 其 核心 实现 代码 为 : 


int driver_register(struct device driver *drv) 
{ 

int ret; 

struct device driver *other; 


other = driver find(drv-^name, drv->bus); 
ret = bus add driver(drv); 
} 


函数 首先 调用 driver find 在 drv->bus 上 查找 当前 要 注册 的 drv， 这 主要 是 防止 向 系统 重复 
注册 同一 个 驱动 ， 如 果 当 前 要 注册 的 驱动 没有 被 注册 过 ， 那 么 将 调用 bus add driver(drv) 
进行 实际 的 注册 操作 。 


<drivers/base/bus.c> 


HELL LL UL M M I ELI LI Él 


int bus add driver(struct device driver *drv) 
i 


com m n "-———rm occ on € Wo en 7"O€O Fou cT» -L;..-----aui-eiusu 


350 RA Linux 设备 驱动 程序 内 核 机 制 
struct driver private *priv; 


bus = bus get(drv-^busy; 
if (!bus) 
return -EINVAL; 
priv = kzalloc(sizeof(*priv), GFP. KERNEL); 
if (!priv) { 
error = -ENOMEM; 
goto out put bus; 
j 
klist init(&priv-^klist devices, NULL, NULL); 
priv->driver = drv; 
drv->p = priv; 
priv->kobj.kset = bus->p->drivers_kset; 
error = kobject init and. add(&priv->kobj, &driver_ktype, NULL, 


"os", drv->name); 


if (drv->bus->p->drivers_autoprobe) | 
error — driver attach(drv); 
if (error) 
goto out unregister; 
I 
klist_add_tail(&priv->knode_bus, &bus->p->klist_drivers)}; 
module add _driver(drv->owner, drv); 


kobject_uevent(&priv->kobj, KOBJ ADD); 
return 0; 
} 


函数 首先 为 drv 分 配 了 一 块 类 型 为 struct driver. private 的 空间 对 银 priv， 然 后 将 其 与 drv 对 
彰 建 立 了 关联 , 同时 调用 kobject init and add 把 dry 所 对 应 的 内 核对 象 加 入 到 sysfs 文件 树 
中 ， 如 此 将 在 /sys/bus/drivers 目录 下 新 建 一 目录 ， 其 名 称 为 drv->name. 


如 果 drv 所 在 的 bus 对 应 的 drivers autoprobe 属性 值 为 1， 将 调用 driver attach 将 当前 注册 
的 drv 与 该 bus 上 所 属 的 设备 进行 绑 定 。 绑 定 的 过 程 将 遍历 bus 上 的 所 有 设备 , 对 于 其 中 的 
每 个 设备 dev， 将 调用 really probe(dev，drv) 进 行 实 际 的 绑 定 操作 。 如 果 此 前 bus 上 定义 了 
match 方法 ， 则 它 将 被 首先 调用 以 确定 drv 与 dev ÆA match, WHA match， 那 么 将 继续 
通 历 下 一 个 设备 ,否则 调用 really probe 进行 实际 的 绑 定 操作 。really probe(dev, drv) 函 数 如 
能 将 drv 与 dev 成 功 绑 定 ， 则 将 在 sysfs 文件 树 中 通过 链接 文件 为 dev 和 dry 所 对 应 的 内 核 
对 象 建立 拓扑 关系 。 辐 时 ， 如 果 所 在 bus 上 定义 有 probe 函数 ， 将 调用 之 ， 否 则 如 果 当 前 
要 注册 的 drv 定义 有 probe 函数 ， 那 么 将 调用 之 。 


在 bus add driver 函数 中 ， 也 会 通过 调用 driver create file 函数 在 新 建 的 dv 目录 中 生成 属 
性 文件 , 比如 driver_create_file(drv, &driver attr uevent)5$ . 驱动 的 属性 由 宏 DRIVER. ATTR 
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KEN: 


«include/linux/device.h- 


por “et i PLI ay ter it E 


#define DRIVER. ATTR( name, mode, show, store) \ 
struct driver attribute driver attr ## name = \ 
. ATIR( name, mode, show, store) 


© driver unregister 


该 函数 用 来 将 某 一 指定 的 驱动 从 系统 中 注销 掉 。 函 数 原型 为 ， 


void driver_unregister(struct device driver *drv) 


参数 dv 用 于 指定 要 注销 的 某 一 驱动 对 象 。 函数 基 本 上 是 做 driver register 的 反 向 工作 ， 其 
主要 的 工作 是 在 bus_remove_driver(drv) 函 数 中 完成 的 。 需 要 注意 的 是 ， 在 注销 一 个 驱动 对 
象 的 过 程 中 ， 如 果 其 所 在 的 总 线 定 义 了 remove 方法 ， 那 么 内 核 会 调用 它 ， 否 则 要 看 驱动 所 
在 的 驱动 程序 中 有 没有 实现 该 方法 ， 如 果实 现 了 的 话 内 核 会 调用 该 函数 。 


9.4 class 


Linux 设备 驱动 模型 中 的 另 一 个 比较 重要 的 概念 是 类 class， 相 对 于 设备 device, class 是 一 
种 更 高 层次 的 抽象 ， 用 于 对 设备 进行 功能 上 的 划分 ， 有 时 候 也 被 称 为 设备 类 。Linux 的 设 
备 模型 引入 类 ， 是 将 其 用 来 作为 具有 同类 型 功能 设备 的 一 个 容器 。 


Linux 为 类 定义 的 数据 结构 是 : 


<include/linux/device.h> 


一 一 


struct class { 
const char *name; 
struct module * owner; 
struct class attribute *class attrs; 
struct device attribute *dev attrs; 
struct kobject *dev_kobj; 


int (*dey_uevent)(struct device *dev, struct kobj uevent env *env); 
char *(*devnode)(struct device *dev, mode t *mode); 

void (*class_release)(struct class *class); 

void (*dev release)(struct device *dev); 

int (*suspend)(struct device *dev, pm message t state); 

int (*resume)(struct device *dev); 


const struct kobj ns type operations *ns type; 
const void *(*namespace)(struct device *dev); 
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const struct dev pm ops *pm; 
struct class private *p; 


h 


const char *name 
类 的 名 称 。 

struct module *owner 
拥有 该 类 的 模块 的 指针 。 

. struct class attribute *class attrs 

类 的 属性 。 

struct device_attribute *dev_attrs 
设备 的 属性 。 

struct kobject *dev_kobj 
代表 当前 类 中 设备 的 内 核对 象 。 


struct class private *p 

类 的 私有 数据 区 ， 用 于 处 理 类 的 子 系统 及 其 所 包含 的 设备 链表 。 
内 核 针 对 类 对 象 定义 的 主要 操作 有 : 
O classes init 


系统 中 类 的 起 源 函 数 ， 在 系统 初始 化 期 间 调 用 ， 主 要 作用 是 产生 类 对 象 的 顶层 


kset———class_kset: 


<drivers/base/class.c> 
int  initclasses init(void) 
{ 
class kset = kset create and add("class", NULL, NULL); 
if(!class kset) 
return -ENOMEM; 
return 0; 


} 


pk XP Xt kset_create_and_add("class", NULL, NULL) 的 调用 将 导致 在 /sys 目录 下 新 生成 一 个 
“class” H3& (/sys/class)， 在 以 后 的 class 相关 的 操作 中 ，class_kset 将 作为 系统 中 所 有 class 
内 核对 象 的 顶层 kset。 
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Q class create 


<include/linux/device.h> 


ee eod om oec o omo o E E OL OR Lo RSde doe oe oo RO dd o4 mo mo Ee a 


#define class_create(owner, name) \ 
t \ 
static struct lock class key key; \ 
. class create(owner, name, & key); — \ 


» 


宏 class create 用 来 生成 一 个 类 对 象 ， 其 用 途 主 要 是 将 同类 型 的 设备 添加 其 中 。 该 宏 的 核心 
是 对 函数 _class_create RUAN, TAE GE MOF: 


<drivers/base/class.c> 


TL 


struct lock class key *key) 
{ 


struct class *cls; 
int retval; 


cls = kzalloc(sizeof(*cls), GFP KERNEL); 


cls->name = name; 
cls->owner = owner; 


cls->class_release = class_create_release; 
retval - class register(cls, key); 


return cls; 
} 
国 数 会 动态 生成 一 个 class 对 象 ， 经 过 一 些 初步 的 初始 化 之 后 ， 调 用 class register 向 系统 注 
册 谱 新 生成 的 类 对 象 。 限 于 篇 幅 ， 此 处 将 不 再 列 出 ”class register 函数 的 源 代 码 ， 而 是 直接 
介绍 其 主要 功能 。 ^ class register 会 首先 为 _class_create 函数 中 生成 的 新 的 类 对 象 分 配 私有 
数据 空间 (struct class_private *cp = kzalloc(sizeof(*cp), GFP KERNEL))， 代 表 class 内 核对 象 
的 kobject AGRE struct class. private 数据 结构 的 class subsys 成 员 中 (class subsys.kobj), 


PA BCRP FEXT Be AY name 成 员 赋值 给 代表 类 的 kobject HRA Fi Ckobject set name(&cp-»class - 
subsys.kobj, "%s", cls->name))， 同 时 为 类 的 kobj 指定 kset 和 ktype: 


<drivers/base/class.c> 
int class register(struct class *cls, struct lock class key *key) 
{ 


cp->class_subsys.kobj-kset = class kset; 
cp->class_subsys.kobj.ktype = &class ktype; 
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之 前 讨论 过 class kset 为 系统 中 所 有 class 对 象 的 顶层 kset, 此 人 处 将 当前 class 对象 的 kobj.kset 

fils] class_kset， 意 味 着 通过 class create 生成 的 class, 在 sysfs 文件 系统 中 的 入口 点 (目录 ) 

将 在 /sys/class 目录 下 产生 。 

函数 接 下 来 调用 kset register 将 之 前 产生 的 class 加 入 到 系统 中 ; 
kset_register(&cp->class_subsys); 

这 样 将 会 在 /sys/class 目录 下 生成 一 个 新 的 目录 。 


O class destroy 


用 于 从 系统 中 注销 一 个 class WH, PRU RE: 


void class_destroy(struct class *cls); 


OQ device create 


本 来 这 个 函数 应 该 是 属于 设备 相关 的 操作 范畴 , 但 是 因为 class 的 引入 ,使 得 设备 的 创建 与 
class 产生 了 相关 性 ， 所 以 我 们 把 这 个 创建 设备 的 函数 放 到 class 一 节 中 讲解 。 


device_create 的 源码 为 : 


struct device *device_create(struct class *class, struct device *parent, 
dev t devt, void *drvdata, const char *fmt, ...) 
{ 
va_list vargs; 
struct device *dev; 
va start(vargs, fmt); 
dev = device create vargs(class, parent, devt, drvdata, fmt, vargs); 
va end(vargs); 
return dev; 
} 


国 数 的 核心 在 device create vargs 调用 中 ， 其 功能 基本 和 device register 相同 ， 但 是 
device create vargs 会 为 设备 指定 class: 


dev->class = class; 


之 前 在 讨论 device register 函数 时 曾 讨 论 过 “在 sysfs 文件 系统 中 建立 系统 硬件 拓扑 关系 结构 
图 ”的 四 种 情况 ， 如 果 用 device create 向 系统 中 增加 设备 ,显然 属于 这 四 种 情况 中 的 后 两 种 。 


O device destroy 


PRU I A : 


void device destroy(struct class *class, dev t devt) 
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该 函数 用 于 从 系统 中 移 除 通过 device create 增加 的 设备 device. 


95 ”本 章 小 结 


本 章 讨论 了 Linux 的 设备 驱动 模型 ， 该 模型 是 个 非常 复杂 的 系统 ， 从 一 个 比较 高 的 层次 来 
看 ， 主 要 由 上 总线、 设备 和 驱动 构成 。 内 核 为 了 实现 这 些 组 件 间 的 相关 关系 ， 定 义 了 kobject 
和 kset 这 样 的 基础 底层 数据 结构 , 然后 通过 sysfs 文件 系统 向 用 户 空间 展示 发 生 在 内 核 空间 
中 的 各 组 件 间 的 互联 层次 关系 ， 并 以 文件 系统 接口 的 方式 为 用 户 空间 程序 提供 了 访问 内 核 
对 象 属性 信息 的 简易 方法 。 


Linux 设备 模型 通过 总 线 将 系统 中 的 设备 和 驱动 关联 起 来 ， 由 于 设备 和 驱动 的 分 离 ， 增 加 
了 系统 设计 的 灵活 性 ， 伴 随 而 来 的 代价 就 是 增加 了 复杂 度 。 


第 10 D 
内 存 映射 与 DMA 


本 章 将 讨论 设备 驱动 程序 中 如 何 实现 内 存 映射 和 进行 DMA 操作 。 内 存 映射 与 第 3 章 中 提 到 
的 内 存 分 配 不 同 ， 它 要 完成 的 任务 是 将 设备 的 地 址 空间 映射 到 用 户 空间 或 者 直接 使 用 用 户 空 
间 中 的 地 址 ， 设 备 程序 这 样 做 的 目的 显然 是 从 提升 系统 性 能 的 角度 出 发 。 如 果 将 这 种 概念 更 
具体 化 , 内存 映射 部 分 实际 上 是 描述 如 何 实现 设备 驱动 程序 中 file operations 中 的 mmap 方法 。 


本 章 还 将 讨论 设备 的 DMA (Direct Memory Access) 操作 ， 主 要 是 在 设备 缓冲 区 和 系统 主 
内 存 间 如 何 传输 数据 ， 因 为 这 种 传输 不 需要 CPU 的 参与 ， 所 以 可 以 极 大 提升 系统 性 能 ， 因 
此 对 于 设备 驱动 程序 员 而 言 ， 深 入 理解 Linux 内 核实 现 的 DMA 接口 的 背后 机 制 ， 有 利于 
人 在 系统 设计 时 采用 最 佳 的 解决 方案 以 提高 系统 吞吐 量 。DMA 操作 的 核心 是 如 何 为 一 个 
DMA 传输 通道 建立 源 地 址 和 目标 地 址 ， 也 就 是 所 谓 的 DMA 映射 问题 。 


1031 设备 缓存 与 设备 内 存 


在 继续 下 面 的 讨论 前 ， 需 要 澄清 或 者 界定 两 个 概念 : 设备 缓存 和 设备 内 存 。 


设备 缓存 是 由 驱动 程序 管理 的 位 于 系统 主 存 RAM 中 的 一 段 内 存 区 域 ， 而 设备 内 存 则 是 设 
备 所 固有 的 一 段 存储 空间 (比如 某 些 设备 的 FIFO， 显 卡 设备 的 Frame Buffer 等 )， 从 设备 
驱动 程序 的 角度 ， 它 应 该 属于 特定 设备 的 硬件 范畴 ， 与 设备 是 紧密 相关 的 。 


Linux 系统 下 设备 缓存 与 设备 内 存 的 典型 用 法 是 在 两 者 之 间 建 立 DMA 通道 , 这 样 当 设备 内 
存 中 接收 到 的 数据 达到 一 定 的 阔 值 时 ， 设 备 将 启动 DMA 通道 将 数据 从 设备 内 存 传输 到 位 
于 主 存 中 的 设备 缓存 中 ， 发 送 数据 则 正好 相反 ， 需 要 发 送 的 数据 首先 被 放 到 设备 缓存 中 ， 
然后 在 设备 驱动 程序 的 介入 下 启动 DMA 传输 ， 将 缓存 中 的 数据 传输 到 设备 内 存 中 。 在 本 
章 接 下 来 的 讨论 中 ， 有 可 能 将 这 两 个 概念 混用 ， 但 在 特定 的 上 下 文中 会 指明 是 哪 种 内 存 。 


10.2 mmap 


在 “分 配 内 存 ” 一 章 中 曾经 讨论 过 ioremap 函数 ， 这 个 函数 主要 用 来 将 内 核 空间 的 一 段 虚 
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拟 地 址 映射 到 外 部 设备 的 存储 区 设备 的 VO 地 址 空间 ) 中 。 本 节 要 讨论 的 mmap 则 用 来 
将 用 户 空 间 的 一 段 虚拟 地 址 映射 到 设备 的 VO 空间 中 ， 这 样 一 来 ， 用 户 空间 进程 将 可 以 直 
接 访 问 设备 内 存 。 驱 动 程序 在 此 要 完成 的 功能 则 是 在 其 内 部 实现 file operations 中 的 mmap 
方法 。 


10.2.1 struct vm area struct 


先 从 file operations 中 定义 的 mmap 方法 的 原型 看 起 : 
p <Include/linuw/fs.h> 
struct file operations { 
int (*mmap) (struct file *, struct vm area struct *y; 
h 


mmap AARE ~~“ 28 i Je HH OK os SA TE YER TERI — A struct file 对 象 指 针 ， 第 二 个 参数 
用 来 表示 用 户 进 程 中 一 段 需 要 被 映射 的 虚拟 地 址 区 域 。 结 构 体 struct vm. area. struct 中 的 一 
HE OK BE X UR XE MF: 


<include/linux/mm_types.h> 

struct vm area struct { m 
struct mm struct * vm mm;  /* The address space we belong to. */ 
unsigned long vm start; /* Our start address within vm mm. */ 
unsigned long vm end; /* The first byte after our end address 


within vm mm. */ 


/* linked list of VM areas per task, sorted by address */ 


struct vm area struct *vm next, *vm prev; 


pgprot tvm page prot; /* Access permissions of this VMA. */ 
unsigned long vm flags; /* Flags, see mm.h. */ 


/* Function pointers to deal with this struct. */ 
const struct vm operations struct *vm ops; 
h 
struct mm struct * vm mm 


当前 struct vm. area struct 对 和 象 所 表示 的 虚拟 地 址 段 所 归属 的 进程 虚拟 地 址 空间 。 


unsigned long vm start 
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当前 struct vm area struct 对 象 所 表示 的 虚拟 地 址 段 的 起 始 地 址 。 
unsigned long vm_end 
当前 struct vm area struct 对 象 所 表示 的 虚拟 地 址 段 的 结束 地 址 。 


struct vm_area_struct *vm_next, *vm_prev 


用 来 将 一 系列 的 struct vm area struct 对 象 构建 成 链表 ,代表 进程 虚拟 地 址 空间 的 struct 
mm struct 对 象 中 的 struct vm_area_struct * mmap 成 员 用 来 指向 该 链表 。 


Pgprot tvm page prot 


在 将 当前 struct vm area struct 对 象 所 表示 的 虚拟 地 址 段 映 射 到 设备 内 存 时 的 页 保护 属 
性 ， 主 要 体现 在 页 目录 ( 表 ) 项 的 映射 属性 当中 。 


unsigned long vm flags 


当前 struct vm area struct 对 象 所 表示 的 虚拟 地 址 段 的 访问 属性 ， 比 如 VM READ. 
VM WRITE. VM EXEC 及 VM SHARED 等 。 


const struct vm operations struct *vm ops 
用 来 定义 对 当前 struct vm area struct 对 象 所 表示 的 虚拟 地 址 段 上 的 一 组 操作 集 。 


内 核 中 的 每 个 struct vm. area. struct 对 象 都 表示 用 户 进程 地 址 空间 的 一 段 区 域 ， 它 是 访问 用 
户 进 程 中 MMAP 地 址 室 间 的 最 小 单元 ， 内 核 为 管理 这 些 struct vm area. struct 对 象 准 备 了 
大 量 的 代码 ， 一 个 核心 的 数据 结构 是 红 黑 树 ， 不 过 对 这 些 数据 结构 和 算法 的 讨论 不 是 本 书 
的 主题 。 


在 继续 讨论 设备 驱动 程序 恕 何 将 用 户 地 址 空间 中 的 虚拟 地 址 映射 到 它 的 设备 IO 空间 之 前 ， 
笔者 会 先 介 绍 一 下 用 户 进程 的 虚拟 地 址 空间 布局 ， 然 后 再 介绍 mmap 的 系统 调用 过 程 ， 因 
为 这 将 有 利于 读者 了 解 到 内 存 映射 的 整体 框架 和 用 户 空 间 程 序 如 何 利 用 驱动 程序 提供 的 
mmap 机 人 制 |。 


10.2.2 ”用 户 空 间 虚 拟 地 址 布局 


因为 mmap 用 来 映射 用 户 空间 的 虚拟 地 址 ， 所 以 有 必要 搞 清楚 在 Linux 系统 下 一 个 进程 的 
用 户 虚 拟 地 址 空间 的 布局 ， 此 处 的 讨论 按照 经 典 的 x86 架构 的 3 GB/1 GB 方式 展开 ， 也 即 
用 户 空 间 虚 所 地 址 大 小 是 3 GB， 内 核 空 间 虚 拟 地 址 大 小 是 1 GB. 此 处 的 布局 是 指 在 3 GB 
的 进程 虚拟 地 址 空间 中 规划 出 进程 的 代码 段 (text)、 存 储 全 局 变量 和 动态 分 配 变量 地 址 的 
堆 ， 以 及 用 于 保存 局 部 变量 和 实现 函数 调用 的 栈 等 存储 块 的 起 始 地 址 和 大 小 。 
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Linux 内 核 中 采用 两 种 布局 方式 ， 在 此 先 给 出 这 两 种 布局 示意 图 以 期 读者 对 后 续 的 讨论 有 
个 直观 的 印象 。 两 种 布局 如 图 10-1 所 示 : 


TASK SIZE[ ^ 


=] mm--»mmap base 





Sz 0x0804 8000 0x0804 8000 
传统 布局 新 式 布局 


图 10-1 用 户 进程 虚拟 地 址 空间 的 两 种 布局 方式 


对 用 户 进程 虚拟 地 址 空间 布局 的 设计 是 操作 系统 要 完成 的 任务 之 一 。 当 Linux 系统 运行 一 
个 应 用 程序 时 , 系统 调用 exec 通过 调用 load elf binary 函数 来 将 该 应 用 程序 对 应 的 ELF 二 
进 制 文 件 加 载 到 进程 3GB 大 小 的 虚拟 地 址 空间 中 ， 布 局 由 此 产生 。 


这 两 种 布局 的 区 别 并 不 是 本 书 要 关注 的 重点 ， 这 里 给 出 这 两 种 布局 是 希望 读者 在 本 章 后 续 
的 讨论 中 先 建立 一 个 全 局 概念 ， 如 果 读 者 对 布局 相关 细节 比较 好 奇 ， 可 以 看 看 下 文中 一 些 
概要 性 的 介绍 。 马 上 会 谈 到 了 驱动 程序 中 mmap 方法 的 实现 ， 这 也 是 本 章 前 半 部 分 的 主题 : 
内 核 如 何 配合 驱动 程序 将 用 户 进程 虚拟 地 址 空间 中 的 MMAP 区 域 的 某 段 地 址 映射 到 设备 
内 存 中 。 


load elf binary 函数 建立 布局 相关 的 函数 调用 链 是 : load elf binary()3'setup new exec()2 
arch pick mmap layout(). 
RD 
void arch pick | minap layout(struct mm struct *mrm) 
i 
if (mmap is legacy()) { 
mm--mmap base = mmap legacy base(); 
mm->get unmapped area = arch get unmapped area; 
mm--unmap area = arch unmap area; 
} else { 
mm--mmap base = mmap base(); 
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mm->get_unmapped_area = arch get_unmapped_area_topdown; 


mm->unmap_area = arch unmap area topdown; 


} 


函数 中 的 参数 mm 是 一 类 型 为 struct mm struct 的 对 单 指针 ，Linux 系统 中 每 个 进程 都 拥有 
一 个 struct mm_struct 类 型 的 对 象 ， 该 对 象 保 存 了 进程 中 与 内 存 管理 相关 的 信息 。Linux 内 
核 为 进程 的 虚拟 空间 提供 了 两 种 布局 方案 ,在 本 书 中 分 别称 之 为 传统 (legacy) 布局 和 新 式 
布局 。arch_pick_mmap_layout 函数 用 mmap_is_legacy( 来 判断 是 采用 传统 布局 还 是 新 式 布 
局 : 

«arch/xB6/mm/mmap.c- 

static int mmap is legacy(void) —— 
{ 


if (current->personality & ADDR_COMPAT LAYOUT) 
return l; 


if (rlimit(RLIMIT STACK) — RLIM INFINITY) 
return 1; 


return sysctl legacy va layout; 


j 
mmap is legacy 函数 决定 了 对 一 个 进程 的 虚拟 地 址 空间 是 采用 传统 布局 还 是 新 式 布局 : 
(1) 如 果 current->personality 设置 了 ADDR COMPAT LAYOUT 位 ,那么 将 采用 传统 布局 。 
(2) 如 果 进 程 空间 对 栈 的 增长 没有 限制 ， 那 么 也 将 采用 传统 布局 。 


(3) 如 果 以 上 两 个 条 忻 都 未 能 满足 ， 那 么 布局 的 方式 将 由 sysctl 的 sysctl legacy va layout 
参数 来 控制 。 


从 arch pick mmap layout 函数 的 代码 可 以 看 出 ， 人 传统 布局 与 狐 式 布局 的 主要 区 别 在 于 
MMAP 区 域 的 扩展 方向 。 在 传统 布局 中 mm-mmap base = mmap_legacy_base()， 如 果 把 这 
条 调用 链 展 开 ， 基 本 上 可 以 认为 mm->mmap_base = TASK_UNMAPPED BASE， 在 x86 E 
& E. TASK_UNMAPPED BASE=3 GB/3=1 GB。 也 就 是 说 ， 对 于 传统 布局 ，MMAP 区 域 
的 起 始 地 址 从 0x40000000 处 开始 ,mm->get unmapped area = arch get unmapped area 表示 
用 来 获得 MMAP 区 域 尚 未 被 映射 的 一 段 内 存 的 函数 ， 传 统 布 局 使 用 
arch_get_unmapped_area， 后 者 是 一 体系 结构 相关 的 函数 ， 但 是 内 核 为 此 提供 了 一 个 通用 的 
函数 ， 当 系统 没有 定义 HAVE ARCH UNMAPPED AREA 室 时 ， 内 核 将 调用 这 个 通用 的 
函数 来 在 用 户 进程 的 MMAP 区 域 分 配 尚 未 被 映射 的 内 存 块 。 该 函数 将 从 低地 址 向 高 地 址 方 
向 分 配 空闲 的 struct vm_area_struct 对 象 ， 每 个 对 象 代表 一 段 连续 的 虚拟 地 址 空间 。 这 里 暗 
含 的 概念 是 对 进程 3 GB 的 虚拟 地 址 空间 中 MMAP 区 域 的 地 址 进行 分 配 ， 目 的 是 要 找到 一 
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块 尚未 被 映射 的 内 存 区 域 。 


对 于 新 式 布 局 ，mm->mmap base = mmap base()， 说 明 该 布局 下 MMAP 7 f pg a d HE rH 
mmap base ei ROKR: 


{ 
unsigned long gap = rlinut(RLIMIT_STACK); 
if (gap < MIN_GAP) 
gap = MIN GAP; 
else if (gap > MAX_GAP) 
gap = MAX GAP; 
return PAGE ALIGN(TASK SIZE - gap - mmap rnd()); 
| 
函数 首先 通过 rlimit(RLIMIT_STACK) 获 得 当前 进程 的 栈 空间 的 最 大 值 ， 然 后 通过 
PAGE ALIGN(TASK SIZE - gap - mmap_rndO) 来 获得 新 式 布局 下 MMAP 空间 的 起 始 地 址 。 


arch_pick_mmap_layout 函数 中 的 mm->get_unmapped_area = arch get unmapped area 
topdown 指明 了 新 式 布 局 下 在 MMAP 区 域 分 配 空闲 struct vm area struct 对 象 的 方式 ， 此 人 处 
不 会 详细 讨论 该 函数 的 实现 机 制 ， 读 者 只 需 记 住 这 个 函数 将 从 高 地 址 向 低地 址 在 MMAP 区 
域 中 分 配 空闲 的 vm_area_ struct 对 象 ,每 个 vm area struct 对象 代 表 一 段 连续 的 虚拟 内 存 空 间 。 


对 于 驱动 程序 程序 员 而 言 ， 了 解 两 种 布局 的 区 别 并 不 是 重点 。 重 点 是 知道 要 映射 的 地 址 区 
域 出 目 3 GB K- BSHILP "IRE MMAP 区 域 〈 读 者 马上 将 看 到 此 处 MMAP 区 域 的 具体 指 
代 )， 内 核 会 很 好 地 管理 MMAP 区 域 ， 管 理 该 区 域 的 最 小 单位 是 由 struct vm. area. struct 数 
据 结 构 表 示 的 对 象 ， 此 处 管理 的 语义 是 分 配 和 释放 一 个 vm_area struct H (38522 — T Hj 
户 进程 对 mmap 和 munmap 等 API 的 调用 )。 系 统 中 一 个 实际 进程 的 MMAP 区 域 看 起 来 可 
能 如 图 10-2 所 示 : 





| | 未 映射 区 域 
图 10-2 一 个 进程 虚拟 地 址 空间 中 MMAP 区 域 的 状态 
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从 图 中 可 以 看 到 一 个 进程 用 户 虚 拟 地 址 空间 中 的 MMAP 区 域 的 空间 状态 , 因为 响应 应 用 程 
序 中 mmap 和 munmap 等 系统 调用 的 缘故 ，MMAP 区 域 充 斥 了 了 映射 的 区 域 和 尚未 被 映射 的 
室 闲 区 域 。 每 个 区 域 由 一 个 struct vm area struct 对 象 表 示 ， 直 觉 上 可 以 知道 内 核 必须 跟踪 
MMAP 区 域 的 分 配 情况 〈 这 跟 “ 分 配 内 存 ” 一 章 中 讨论 过 的 vmalloc 机 制 极其 相似 ?7， 并 且 
应 谱 能 很 好 地 处 理 从 MMAP 区 域 分 配 一 个 待 映射 的 vm area struct 对 象 或 者 释放 一 个 被 映 
SIR vm area struct 对 象 。 显 然 这 不 是 一 件 轻松 的 事情 ， 幸 运 的 是 内 核 基本 上 为 我 们 打点 
了 所 有 这 一 切 的 细节 。 


大 体 上 ， 这 种 用 户 空 间 虚 拟 地 址 映射 到 设备 内 存 的 过 程 可 以 概括 为 ， 内 核 先 在 进程 虚拟 地 
址 空间 的 MMAP 区 域 分 配 一 个 空闲 〈 即 未 映射 ) 的 struct vm area struct 对 象 ， 然 后 通过 
页 目录 表 项 的 方式 将 struct vm. area. struct 对 象 所 代表 的 虚拟 地 址 空间 映射 到 设备 的 存储 空 
间 中 。 如 此 ， 用 户 进程 将 可 以 直接 访问 设备 的 存储 区 ， 从 而 提高 系统 性 能 。 页 目录 表 项 的 
介入 也 意味 看 每 个 vm_area_struct 对 象 表示 的 地 址 空间 应 该 是 页 对 齐 的 ， 大 小 是 页 的 整数 


倍 。 


10.2.3 mmap 系统 调用 过 程 
在 用 户 空间 ，mmap 系统 调用 的 函数 原型 为 ; 


void * mmap(void *start, size t length, int prot , int flags, int fd, off t offset); 


SEH, start 表示 映射 区 的 起 始 地 址 ，length 是 映射 区 的 长 度 ，prot 表示 用 户 进程 在 映射 区 被 
映射 时 所 期 望 的 保护 方式 , 常见 的 prot 值 有 PROT READ. PROT_WRITE 及 PROT EXEC 
Sf. flags 用 于 指定 映射 区 的 类 型 ，fd 是 当前 正在 操作 的 文件 的 描述 符 ，offset 是 实际 数据 
在 映射 区 中 的 偏 移 值 。 在 实际 使 用 中 ，start 参数 常常 设 为 NULL， 表 示 让 系统 在 MMAP 区 
域 找 一 个 合适 的 空闲 区 域 。 如 果 一 切 正常 ，mmap 函数 将 返回 已 经 被 映射 的 MMAP 区 域 中 
一 段 虚拟 地 址 的 起 始 地 址 ， 应 用 程序 因此 可 以 访问 到 对 应 的 物理 内 存 。 


当 用 户 宇 间 程 序 调 用 mmap 函数 时 , Linux 系统 将 通过 系统 调用 sys mmap pgo 任 进入 内 核 ， 
由 当前 设备 文件 中 实现 的 mmap 方法 来 完成 用 户 程序 所 要 求 的 映射 。sys mmap pgoff 的 核 
心 代码 如 下 : 


<mmmmap.c> 
SYSCALL DEFINE6(mmap pgoff, unsigned long, addr, unsigned long, len, 
unsigned long, prot, unsigned long, flags, 


unsigned long, fd, unsigned long, pgoff) 
struct file *file - NULL; 


file = fget(fd); 
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flags &- -(MAP EXECUTABLE | MAP DENY WRITE); 
down write(&current-^mm--^mmap sem); 

retval = do mmap _pegoff(file, addr, len, prot, flags, pgoff); 
up_write(&current->mm->mmap_sem); 


} 


sys_mmap_pgoff 除了 作 一 些 错误 检查 之 外 ， 主 要 做 两 件 事 : 一 是 通过 feet 函数 由 文件 描述 
符 获 得 对 应 的 struct file 对 章 指 针 ; 二 是 调用 do mmap pgo 企 来 完成 后 续 的 内 存 映射 工作 。 


do_mmap_pgoff 的 函数 实现 比较 长 , 但 是 对 比 一 下 驱动 程序 中 要 实现 的 mmap 方法 的 原型 ， 


基本 上 可 以 推测 出 do mmap pgoff 函数 的 主体 脉络 应 该 是 根据 用 户 空间 进程 调用 mmap 
API 时 传 入 的 参数 构造 一 个 struct vm_area_struct 对 象 的 实例 ,然后 调用 file->f_op->mmap(). 


本 来 到 此 我 们 可 以 直接 转 到 对 设备 驱动 程序 如 何 实现 其 mmap 方法 的 讨论 ， 但 是 如 果 略 过 
do_mmap_pgo 人 的 某 些 实现 细节 ， 对 本 书 的 读者 来 说 ， 是 个 损失 。 因 为 do mmap pgo 任 的 
实现 过 程 虽 然 不 是 那么 流畅 ， 但 是 其 中 还 是 有 一 些 代码 颇 值 得 仔细 玩味 一 番 。 因 此 ， 读 者 
如 果 有 兴趣 的 ， 我 们 不 妨 仔细 看 看 do mmap pgoff 函数 的 实现 ， 相 信和 应 该 是 不 虚 此 行 的 。 


A% do_mmap_pgo 企 的 代码 比较 长 ， 下 面 将 按照 其 主要 功能 逻辑 分 段 摘录 讨论 。 


<mm/mmap.c> 


-TT 


unsigned long len, unsigned long prot, 
unsigned long flags, unsigned long pgoff) 


/一 些 防御 性 代码 的 常规 检查 

len = PAGE, ALIGN(len); 
此 处 要 确保 映射 区 的 长 度 应 该 是 一 个 PAGE 大 小 的 整数 倍 ， 因 为 映射 发 生 时 ， 最 小 的 单位 
就 是 一 个 页 ， 这 是 由 体系 结构 中 的 MMU 单元 的 特性 决定 的 。 


if ((pgoff + (len >> PAGE SHIFT)) < pgoff) 
retum -EOVERFLOW; 


检查 参数 中 的 pgoff 是 否 会 溢出 (OVERFLOW)， 这 告诉 用 户 空间 程序 员 在 使 用 mmap API 
时 需要 保证 offset 参数 的 合法 性 。 
addr = get_unmapped_area/(file, addr, len, pgoff, flags); 
if (addr & -PAGE MASK) 
return addr; 
本 函数 中 比较 重要 的 一 个 调用 ， 用 来 在 进程 的 3 GB 的 虚拟 地 址 空间 中 分 配 一 块 空闲 区 域 。 
在 前 面 “ 进 程 虚拟 地 址 空间 布局 ”一 节 中 曾 提 到 内 核 的 两 种 布局 方式 ， 对 任 一 布局 而 言 ， 
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部 会 对 当前 进程 的 mm 对 象 中 的 get unmapped area 上 成 员 进 行 赋值 ， 对 传统 布局 是 
mm->get_unmapped area = arch get unmapped area ， 对 新式 布局 则 是 
mm->get_unmapped_area = arch get unmapped area topdown。 另 外 ,我 们 知道 file operations 
结构 体 中 有 一 个 get unmapped area 方法 : 

<include/linux/fs.h> | 


struct file operations { 


unsigned long (*get unmapped area)(struct file *, unsigned long, unsigned long, unsigned long, 
unsigned long); 


R 
mm->get_unmapped area0 和 filp->get_ unmapped area0) 的 主要 作用 都 是 在 用 户 进程 的 虚拟 
地 址 空间 中 分 配 空 闲 的 内 存 区 域 ， 在 get unmapped area 函数 的 内 部 ， 则 通过 
mm->get_unmapped area 或 者 filp-»get unmapped area 来 实现 空间 虚拟 地 址 的 分 配 , 这 种 选 
择 基 于 以 下 代码 : 

<mmimmap.c> 

unsigned long 

get unmapped area(struct file *file, unsigned long addr, unsigned long len, 
unsigned long pgoff, unsigned long flags) 


unsigned long (*get area)(struct file *, unsigned long, 
unsigned long, unsigned long, unsigned long), 


get area = current->mm->get_unmapped_area; 

if (file && file->f_op && file->f_op->get_unmapped_area) 
get area = file->f_op->get_unmapped_area; 

addr = get_area(file, addr, len, pgoff, flags); 


} 


因此 get unmapped area 所 作 的 选择 是 ， 如 果 驱 动 程序 在 其 file_operations 对 象 中 没有 定义 
get unmapped area 方法 ， 即 file->f_op->get_unmapped area 为 空 ， 那 么 函数 将 利用 当前 进 
程 mm 对 象 中 的 get unmapped area 函数 来 分 配 空闲 的 虚拟 地 址 空间 ， 和 否则 将 使 用 
file->f_op->get_unmapped_area, 现实 中 很 少 有 驱动 程序 需要 在 自己 的 file operations X12 F 
实现 get unmapped area 方法 ， 所 以 我 们 的 讨论 按照 内 核 提 供 的 标准 分 配 图 数 进行 。 


对 于 传统 布局 而 言 ， 内 核 提供 的 分 配 MMAP 区 域 中 空闲 虚拟 地 址 空间 的 标准 函数 是 


arch_get_unmapped_area: 


<mm/mmap.c> 


ee ck och E dE ee GEO Gh ee so die Chio Re on Hb CHE Re ex es oc d HE es ome omms omo Rodas Ras Roo om 9m CALO Fe m moms meo ey 


unsigned long 
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arch get unmapped area(struct file *filp, unsigned long addr, 
unsigned long len, unsigned long pgoff, unsigned long flags) 


struct mm struct *mm = current->mm; 
struct vmi area struct *vma; 
unsigned long start addr; 


if (len > TASK SIZE) 
return -ENOMEM; 
if (flags & MAP FIXED) 
return addr; 
if (addr) { 
addr = PAGE ALIGN(addr); 
vma = find_vma(mm, addr); 
if (TASK_SIZE - len >= addr && 
(!vma || addr + len <= vma->vm start)) 
return addr; 
} 
if (len > mm->cached_hole_ size) { 
start_addr = addr = mm->free_area_cache; 
} else | 
start addr — addr - TASK UNMAPPED BASE; 
mm--cached hole size = 0; 
} 
full search: 
for (vma = find vma(mm, addr); ; vma = vma-»vm next) { 
/* At this point: (!vma || addr < vma->vm_end). */ 
if (TASK SIZE - len < addr) { 
/* 
* Start a new search - just in case we missed 
* some holes. 
让/ 
if (start addr {= TASK UNMAPPED BASE) { 
addr = TASK UNMAPPED BASE; 
start addr — addr; 
mm--cached hole size = 0; 
goto full search; 
j 
return -ENOMEM; 


} 
if (!vma || addr + len <= vma->vm_start) { 
/* 
* Remember the place where we stopped the search: 
ai 


mm->free area cache = addr + len; 
return addr; 
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if (addr + mm->cached_hole_size < vma->vm_start) 
mm--cached hole size = vma->vm_start - addr; 


addr = vma->vm_ end; 


} 


如 果 应 用 程序 指定 的 待 映射 区 域 的 长 度 大 于 TASK_SIZE， 函 数 将 把 一 个 错误 码 -ENOMEM 
返回 给 用 户 进 程 ， 告 知 用 户 进 程 目前 空闲 的 虚拟 地 址 空间 不 足以 满足 本 次 映射 需求 。 如 果 
用 户 进 程 指定 了 MAP_FIXED 标志 ,表明 映射 将 从 addr 参数 指定 的 起 始 地 址 处 开始 ， 因 此 
这 种 情况 函数 将 直接 返回 addr。 接 下 来 函数 检查 调用 者 有 没有 指定 要 优先 映射 的 虚拟 地 址 ， 
如 果 有 ， 内 核 将 检查 addr 和 len 所 确定 的 待 映射 的 虚拟 地 址 空间 是 否 与 已 经 被 映射 的 虚拟 
地 址 空间 重合， 如 果 不 重 笃 将 直接 返回 addr。 如 果 调 用 者 没有 指定 一 个 需要 优先 映射 的 地 
址 〈 这 种 情况 下 应 用 程序 在 调用 mmap 函数 时 传递 的 参数 start 为 NULL)， 那 么 内 核 必须 
遍历 用 户 进程 中 所 有 可 用 区 域 ， 设 法 找到 一 个 大 小 合适 的 空闲 区 域 ， 通 常情 况 下 ， 应 用 程 
序 在 调用 mmap 时 都 是 将 start 参数 设 定 为 NULL， 也 就 是 让 内 核 自 己 在 当前 进程 用 户 空 间 
的 MMAP 区 域 去 找 一 块 待 映射 区 域 。 


Kiew, 现在 通过 do mmap pgoff 中 的 get unmapped area 函数 调用 在 MMAP 区 域 获得 
了 一 个 空闲 的 尚未 被 映射 的 ym_area_struct Xj 8. 


前 面 花 了 一 些 篇 幅 讨 论 了 get unmapped area 函数 , 现在 继续 回 过 头 来 看 看 do mmap pgoff 
消 数 的 后 续 部 分 。 在 后 续 部 分 ， 函 数 除了 做 一 些 权能 ， 标 志 位 的 检测 之 外 ， 一 -个 关键 的 调 
用 是 mmap region 函数 : 


<mm/mmap.c> 


一 


unsigned long len, unsigned long prot, 
unsigned long flags, unsigned long pgoff) 


return mmap region(file, addr, len, flags, vm flags, pgoff); 
f 


实际 的 映射 工作 在 mmap region 函数 中 完成 〈 显 然 需 要 设备 驱动 程序 中 实现 的 mmap 方法 
的 配合 )。 当 然 出 于 很 多 方面 的 考量 ，mmap region 函数 一 如 既往 地 继承 了 Linux 代码 特有 
的 稳健 但 元 长 的 风格 。 为 了 完 探 内 幕 的 便捷 , 此 处 还 是 给 出 mmap region 函数 的 主体 脉络 : 


<mm/mmap.c> 
unsigned long mmap_region(struct file *file, unsigned long addr, 
unsigned long len, unsigned long flags, 


unsigned int vm flags, unsigned long pgoff) 
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vma = kmem cache zalloc(vm area cachep, GFP_KERNEL), 
if (!vma) { 
error = -ENOMEM; 
goto unacct error; 
} 
vma-^vm mm = mm; 
vma->vm_ start = addr; 
vma-»vm end = addr + len; 
vma->vm_flags = vm_flags; 
vma->vm_page prot-— vm get page prot(vm flags); 
vma-vm pgolf = pgoff; 


if (file) ( 


vma--vm file = file; 
get file(file); 
error = file->f_op->mmap(file, vma); 


} else if (vm flags & VM SHARED) { 
error = shmem zero setup(vma); 
if (error) 

goto free vma; 


} 


当 该 国 数 被 调用 时 ,参数 addr 已 经 指向 了 一 块 空闲 的 待 映射 的 MMAP 区 域 中 的 起 始 地 址 ， 
所 以 函数 会 首先 利用 kmem cache zalloc 分 配 出 一 个 struct vm area struct PIR, AIG 
对 其 初始 化 。 


接 下 来 的 重点 由 ift--else if… 领 衔 ， 不 过 放 里 面 的 代码 才 是 我 们 关注 的 重点 ， 人 至 于 else if, 
我 们 列 出 这 个 条 件 是 想 让 读者 知道 mmap 除了 映射 设备 内 存 ， 还 有 一 些 其 他 用 途 ， 只 不 过 
不 是 本 书 的 重点 ， 所 以 就 略 过 不 提 了 。 


让 语句 的 核心 很 简单 ，error = file->f_op->mmap(file, vmal。 是 的 ， 调 用 到 了 驱动 程序 实现 的 
mmap 方法 。 再 回顾 一 下 file operations 中 mmap 方法 的 原型 ; 


int (*mmap) (struct file *, struct vm area struct *); 
很 吻合 ， 不 是 吗 ? 
本 章 行 文 至 此 ， 我 们 知道 了 内 存 映 射 所 要 讨论 的 主要 内 容 以 及 mmap 机 制 在 系统 中 的 来 龙 


去 脉 ， 我 们 看 到 了 内 核 为 即将 进行 的 内 存 映 射 准备 了 struct vm. area struct 对 象 ， 并 且 调 用 
了 设备 驱动 程序 中 的 mmap 方法 ， 内 核 的 任务 到 此 要 告 一 段落 ， 接 下 来 应 该 是 讨论 设备 驱 
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动 程 序 如 何 实现 mmap 的 时 刻 了 。 


10.2.4 驱动 程序 中 mmap 方法 的 实现 


设备 驱动 程序 中 mmap 方法 的 主要 功能 是 将 内 核 提 供 的 用 户 进 程 空间 中 来 自 MMAP 区域 的 
一 段 内 存 ( 内 核 将 这 段 区 域 以 struct vm. area. struct 对 象 作为 参数 的 方式 告诉 设备 驱动 程序 ) 
映射 到 设备 内 存 上 。 正 如 读者 所 猜想 的 ， 驱 动 程序 需要 通过 配置 相对 应 的 页 目录 表 项 的 方 
式 来 完成 。 在 继续 下 面 的 讨论 前 ， 先 来 看 一 张 整个 mmap 机 制 的 流程 图 《图 10-3), LAT iF 
目前 讨论 的 进度 


MMAP 区 域 








| jambe 
| 未 映射 区 域 
“| 正在 映射 区 域 


图 10-3 mmap 内 存 上 映射 机 制 流程 


到 目前 为 止 , 内 核 为 我 们 在 MMAP 区 域 分 配 了 一 个 空闲 的 vma TR, 然后 调用 file 对 应 的 
设备 驱动 中 的 mmap 方法 ， 驱 动 需要 在 它 的 mmap 方法 的 实现 里 将 vma X1 S84 3E B] RRH P1 Z 
间 地 址 映射 到 设备 内 存 中 。 


驱动 程序 需要 在 自己 的 mmap 方法 的 实现 代码 中 完成 页 目录 表 项 的 配置 以 便 将 vma 对 象 表 
示 的 虚拟 地 址 映射 到 对 应 的 物理 内 存 上 ， 注 意 这 里 说 的 是 物理 内 存 ， 虽 然 本 章 内 存 映射 的 
主旨 是 建立 用 户 空 间 虚 拟 地 址 到 设备 内 存 的 映射 ， 但 是 系统 RAM 也 是 一 种 物理 设备 ， 因 
此 物理 内 存 的 提 法 在 更 广 的 范围 内 涵盖 了 mmap 机 制 的 功能 。 


驱动 程序 当然 可 以 直接 使 用 页 目录 表 项 的 一 些 操 作 函 数 来 建立 这 种 映射 ， 这 从 原理 上 来 讲 
非常 简单 ， 但 事实 上 Linux 系统 下 凡是 涉及 内 存 的 操作 一 般 都 不 是 孤立 的 ， 需 要 考虑 到 与 
其 他 模块 之 间 的 关联 ， 所 以 这 种 页 目录 表 的 操作 已 不 再 如 想象 中 的 那 般 单纯 。 幸 运 的 是 ， 
Linux 内 核 为 方便 设备 张 动 程序 员 提 供 了 一 些 接口 函数 供 其 使 用 。 了 解 这 些 接口 函数 的 实 
现 机 制 ， 有 助 于 设备 驱动 正确 建立 所 要 求 的 内 存 映射 关系 ， 另 一 方面 ， 对 这 些 函 数 的 理解 
也 可 以 让 读者 熟悉 如 何 通 过 页 目录 表 项 的 操作 函数 建立 内 存 映射 。 


下 面 开 始 讨论 Linux 内 核 中 提供 的 操作 页 目录 表 项 以 建立 页 面 映射 的 一 些 接口 函数 : 
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(2 remap pfn range 
该 函数 的 原型 为 : 


int remap pfn range(struct vm area struct *vma, unsigned long addr, 


unsigned long pfn, unsigned long size, pgprot t prot); 


这 个 函数 可 以 用 来 将 参数 addr 起 始 的 大 小 为 size 的 虚拟 地 址 空间 缺 射 到 pfn 表示 的 一 组 连 
续 的 物理 页 徊 上 ，pfn 是 页 框 与 Cpage frame number)， 在 页 面 大 小 为 4 KB 的 系统 中 ， 一 个 
物理 地 址 右 移 12 位 即 可 得 到 该 物理 地 址 对 应 的 页 框 号 。 简 言 之 ， 函数 为 [add,add+size] 范 围 
的 虚拟 地 址 建立 页 目录 表 项 ， 将 其 映射 到 以 pin 开始 的 物理 页 面 上 。 


EA, 将 用 尸 空间 的 地 址 通过 remap pfn range 映射 到 设备 内 存 上 , 尤其 是 设备 的 寄存 器 所 
在 的 地 址 空间 ， 都 不 希望 cache 机 制 发 挥 作用 ， 豫 动 程序 可 以 通过 最 后 一 个 参数 prot KB 
啊 页 表 项 中 属性 位 的 建立 ， 比 如 使 用 pgprot_noncached(). 


remap pfn range ARH SALA: 


«mm/memory.c» 
int remap pfn range(struct vm area struct *vma, unsigned long addr, 
unsigned long pfn, unsigned long size, pgprot t prot) 

{ 

pgd t *pgd; 

unsigned long next; 

unsigned long end = addr + PAGE ALIGN(size); 

struct mm struct *mm = vma-"vm mm; 

int err; 


If (addr = vma--vm start && end == vma--vm end) { 
vma-»vm pgoff = pfn; 
vma--vm flags|- VM PFN AT MMAP; 

| else if (is cow mapping(vma--vm flags)) 
return -EINVAL; 


vma->vm_flags |= VM IO| VM RESERVED | VM_PFNMAP; 


err = track pfn vma new(vma, &prot, pfn, PAGE ALIGN(size)); 

if (err) 1 
vma-»vm flags &= «(VM IO| VM RESERVED | VM PFNMAP); 
vma-»vm flags &= ~VM PFN AT MMAP; 
return -EINVAL; 


BUG ON(addr >= end); 
pfn -= addr >> PAGE. SHIFT; 
ped = pgd offset(mm, addr); 
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flush_cache_range(vma, addr, end); 
do { 

next = pgd addr end(addr, end); 

err = remap pud range(mm, pgd, addr, next, 

pfn + (addr >> PAGE SHIFT), prot); 
if (err) 
break; 

} while (pgd+4, addr = next, addr != end); 


if (err) 
untrack pfn_vma(vma, pin, PAGE ALIGN(size)); 
return ert; 


} 


图 数 首先 将 addrtsize 调整 到 下 一 个 页 面 的 边界 处 ， 因 为 内 存 映射 的 最 小 单位 是 页 。 图 数 对 
COW (copy-on-write】 的 映射 处 理 比 较 谨慎 ， 不 过 这 种 情况 不 是 驱动 程序 员 关 注 的 重点 。 
绝 大 多 数 情况 下 ，if(addr == vma-»vm start && end == vma->vm_end) 条 件 满足 ， 接 下 来 的 
核心 是 操作 页 表 建 并 虚拟 内 存 到 物理 内 存 之 间 的 映射 。 


pgd offset 函数 用 来 获得 某 一 虚拟 地 址 在 页 目录 表 中 的 对 应 单元 的 地 址 pgd: 


ped = ped_offset(mm, addr); 


flush cache range 函数 是 体系 架构 相关 的 函数 ,用 来 将 (addr,end) 地 址 范围 对 应 的 cache A 
同步 到 主 存 中 。 


do while 循环 用 来 在 页 目录 中 建立 对 应 的 映射 页 表 项 ， 因 为 MMU 也 是 一 个 体系 相关 的 概 
念 ， 此 处 的 讨论 限定 在 32 位 x86 的 两 级 映射 ， 即 第 一 级 是 页 目录 表 (pgd)， 第 二 级 是 页 表 
(pte) 1， 页 大 小 为 4 长 B。 


页 目录 表 中 的 每 一 项 entry 可 以 映射 4 MB 的 地 址 空间 ， 总 共有 1024 个 entry， 所 以 可 以 映 
射 1024x4 MB=4 GB 的 虚拟 地 址 空间 。next = ped addr end(addr, end) 用 来 获取 addr 对 应 
页 表 项 的 下 一 个 entry 对 应 的 虚拟 起 始 地 址 ， 所 以 如 果 end - addr 的 值 不 超过 4 MB, ALA 
next M(H All end 的 值 是 相等 的 ,如 果 超 过 4 MB 但 是 小 于 8 MB, 那么 基本 上 next=addr+4 MB, 
依 此 类 推 . 换血 话说 ， 如 果 上 映射 一 个 不 超过 4 MB 的 虚拟 地 址 空间 ，1 次 do while 循环 后 映 
射 就 完成 了 。 


remap pud range 用 来 做 实际 的 页 目录 表 项 的 操作 ， 其 实现 如 下 : 


<mm/memory.c> 
static inline int remap pud range(struct mm struct *mm, ped t *pgd, 
unsigned long addr, unsigned long end, 


1 虽然 Linux 内 核 统一 使 用 四 级 映射 机 制 ， 对 于 x86 平台 传统 的 二 级 映射 ， 内 核 虚拟 了 pud 与 pmd. 
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unsigned long pfn, pgprot t prot) 


pud t *pud; 
unsigned long next; 


pfn -= addr >> PAGE. SHIFT; 
pud = pud alloc(mm, pgd, addr); 
if (!pud) 
return -ENOMEM; 
do { 
next = pud addr end(addr, end); 
if (remap pmd range(mm, pud, addr, next, 
pfn + (addr >> PAGE SHIFT), prot)) 
return -ENOMEM; 
} while (pud++, addr = next, addr !— end); 
return 0; 
j 


Linux 内 核 采用 统一 的 四 级 映射 ped. pud. pmd 和 pte. HEF 32 位 x86 架构 而 言 ， 只 有 经 
典 的 二 级 映射 机 制 ， 因 此 内 核 通过 虚拟 的 pud 和 pmd 来 统一 x86 的 这 种 二 级 映射 。 简 而 言 
之 ， 在 这 种 硬件 机 制 只 有 两 级 映射 的 情况 下 ，pud=pmd=pgd。 

图 10-4 显示 了 一 个 32 位 虚拟 地 址 在 做 物理 地 址 映射 时 的 构成 ， 前 10 位 用 做 ped 的 索引 ， 


总 共 能 索引 27-1024 个 页 目录 项 ， 中 间 的 10 位 用 做 页 表 项 的 索引 ， 同 样 可 以 索引 1024 个 
项 ， 最 后 的 12 位 作为 映射 到 的 物理 页 面 中 的 偏 移 地 址 。 


Zr 





10-4 32 位 虚拟 地 址 构成 


如 果 抛 开 内 核对 pud 与 pmd 的 模拟 ， 那 么 在 remap pud. range 函数 的 调用 链 中 ， 最 终 的 页 
表 建 立 实际 发 生 在 remap_pmd_range 中 : 


«mm/memory.c- 


ss -= == oom omo e oom om ommo om om om om omm om LLLI III llli 


unsigned long addr, unsigned long end, 
unsigned long pfn, pgprot t prot) 


pmd t *pmd; 


unsigned long next; 


pfn -= addr >> PAGE SHIFT; 
pmd = pmd_alloc(mm, pud, addr); 
if (!pmd) 

return -ENOMEM; 
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do { 
next = pmd addr end(addr, end); 
if (remap pte range(mm, pmd, addr, next, 
pfn + (addr >> PAGE SHIFT), prot)) 
return -ENOMEM: 
} while (pmd-—, addr = next, addr != end); 
return 0; 
i 


函数 中 的 remap pte range 将 建立 对 应 的 页 表 项 ， 对 于 传统 的 32 位 x86 的 两 级 映射 ， 在 调 
用 该 函数 时 pmd=pgd，remap_pte_range 函数 将 首先 通过 ”pte alloc 分 配 一 个 物理 页 面 作 为 
第 二 级 映射 的 页 表 : 


<mm/memory.c> 


Saeko ee eee ee ee 


int pte alloc(struct mm - struct *mm, pmd t *pmd, unsigned long address) 
1 


pgtable t new = pte alloc one(mm, address); 


spin lock(&mm--page table lock); 

if(!pmd present(*pmd)) { — /* Has another populated it ? */ 
mm->nr_ptest++; 
pmd_populate(mm, pmd, new); 
new = NULL; 

} 

spin_unlock(&mm->page_table_lock); 


} 


在 得 到 新 页 表 的 物理 地 址 new Za, _ pte alloc 调用 pmd_populate(mm, pmd, new) 将 新 的 
页 表 物 理 地 址 写 到 ped 中 。 之 后 根据 要 映射 到 的 物理 地 址 address 计算 出 它 在 新 页 表 中 的 对 
应 项 ， 然 后 将 address 地 址 写 到 该 项 ， 对 应 的 代码 在 : 


<mm/memory.c> 


static int remap pte range(struct mm struct *mm, pmd t *pmd, | 
unsigned long addr, unsigned long end, 
unsigned long pfn, pgprot_t prot) 


pte = pte_alloc_map_lock(mm, pmd, addr, &ptl); 


do { 
set_pte_at(mm, addr, pte, pte_mkspecial(pfn_pte(pfn, prot))); 
pin++; 

} while (pte++, addr += PAGE_SIZE, addr != end): 


第 10 章 ”内存 映 射 与 DMA 373 


; 


E f f PCR ZEE Sc o BR 8 E57 BE n HUE BURT AY pte PAY, pfn 的 操作 是 pfnt++， 这 意 
味 痢 remap pfn range A OHJE vma 对 象 表征 的 一 段 虚 拟 地 址 映射 到 从 pfn 开始 的 一 段 连续 
的 物理 页 面 中 ， 当 然 这 里 的 前 提 是 remap pfn range 需要 映射 到 的 空间 范围 多 于 一 个 物理 
页 。 这 里 只 是 从 全 局 的 角度 讨论 了 remap pfn range 函数 的 实现 机 制 , 更 多 关于 实际 映射 过 
程 的 建立 细节 需要 读者 知晓 x86 的 二 级 页 表 的 相关 知识 , 比如 页 目录 项 和 页 表 项 的 构成 等 。 


现在 回顾 一 下 remap pfn range 函数 的 总 体 流 程 。 函 数 首先 根据 需要 映射 的 虚拟 地 址 块 的 首 
地 址 《由 盟 数 的 参数 addr 表示 ) 的 前 10 位 得 到 第 一 级 映射 在 页 目录 表 中 的 entry (HR 
表 的 每 一 表 项 映射 空间 的 大 小 为 4 MB)， 接 着 分 配 一 块 物理 页 面 作为 新 的 二 级 页 表 ， 并 将 
该 页 表 的 物理 地 址 填 入 前 面 的 entry 中 ， 最 后 通过 虚拟 地 址 首 地 址 的 中 间 10 位 来 确定 对 应 
的 4KB 大 小 的 映射 在 新 页 表 中 的 entry “二 级 页 表 的 每 个 entry 映射 一 个 4 KB 大 小 的 物理 
SU), 找到 之 后 将 要 映射 的 物理 页 的 起 始 地 址 (由 remap_pfn_range 函数 的 第 三 个 参数 pin 
提供 ) 放 到 该 entry 中 .需要 深入 钴 研 的 读者 也 许 要 阅读 对 应 处 理 器 架构 的 MMU 单元 部 分 ， 
比如 x86 或 者 ARM， 以 了 解 这 些 上 映射 的 技术 细节 。 鉴 于 本 书 的 主题 侧重 在 内 核 为 设备 驱动 
程序 提供 的 各 种 内 核 机 制 的 剖析 上 ， 所 以 对 这 种 上 映射 的 技术 细节 的 讨论 只 会 到 目前 的 层面 
上 ， 此 时 读者 应 该 已 经 了 解 了 用 户 空间 的 地 址 如 何 映射 到 实际 的 物理 内 存 。 


10.2.5 mmap 使 用 范例 


本 市 将 用 一 定 的 篇 幅 讨 论 一 个 实际 的 设备 驱动 程序 在 其 mmap 方法 的 实现 中 如 何 使 用 
remap pfn range 函数 来 映射 设备 内 存 。 这 个 例子 源 自 Linux 内 核 源码 中 的 
drivers/media/video/cpia2, 这 个 驱动 程序 实现 了 自己 的 mmap 方法 来 将 用 户 空间 地 址 映射 到 
其 设备 内 存 (Frame Buffer) E: 


«drivers/media/video/cpia2/cpia2 _ v4l. c 


mom omo UA. s dap ei me cg cm ce elm e s cue as ON cer ue eC HN cm Mw n WS RN OR 


static int cpia2 mmap(struct file *file, struct vm area struct ct area) - 


{ 


ee E ee 


struct camera data *cam = video drvdata(file); 
int retval; 


retval = cpia2 remap buffer(cam, area); 


return retval; 


j 
«drivers/media/video/cpia2/cpia2 _ core.c» 


一 


int cpia2_remap_buffer(struct camera_data *cam, struct vm_area_struct *vma) 


{ 


-o wo - oH GR A c ee -— anoTow moa — — mw ox: — oL c Gà Gh od. Lo UL Wn do Roo — — oW 0— o— o —o-o5——4rBmrm-n-wW—-—numnu-5u5:--ak-.56.- 


const char *adr = (const char *yvma-»vm start; 
unsigned long size = vma->vm_end-vma->vm_ start; 
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unsigned long start offset = vma->vm_pgoff << PAGE. SHIFT; 
unsigned long start = (unsigned long) adr; 
unsigned long page, pos; 


pos = ((unsigned long) (cam->frame_buffer)) + start. offset; 
while (size > 0) { 
page = kvirt_to_pa(pos); 
if (remap_pfn_range(vma, start, page >> PAGE SHIFT, PAGE SIZE, PAGE SHARED)) 
return -EAGAIN; 
start += PAGE. SIZE; 
pos += PAGE SIZE; 
if (size > PAGE SIZE) 
size -= PAGE SIZE; 
else 
size = 0); 


} 


cam->mmapped = true; 
return 0); 


} 


经 过 前 面 几 节 的 讨论 ，cpia2 mmap 函数 的 参数 我 们 已 经 非常 熟悉 了 。 设 备 的 内 存 由 
cam->frame_buffer 指定 ， 它 通过 cpia2 allocate buffers 函数 来 为 之 分 配 ， 为 了 cpia2 mmap 
国 数 讨 论 的 完整 性 ,等 下 再 讨论 cpia2 allocate buffers 函数 如 何 分 配 设备 内 存 。 现 在 我 们 有 
TREAT. CRTE cam-frame buffer 中 ， 接 下 来 的 核心 是 在 while 循环 中 ， 它 首先 通 
过 kvirt_to_pa(pos) 得 到 设备 内 存 所 映射 到 的 物理 内 存 地 址 , 然后 通过 remap pfn range 将 用 
户 进程 空间 的 虚拟 地 址 映射 到 该 物理 内 存 页 面 上 , 这 里 每 次 调用 remap_pfn_range 映射 一 个 
物理 页 面 ， 直 到 所 有 的 设备 内 存 页 面 全 部 被 映射 完毕 。 在 cpia2 mmap 成 功 执行 后 ， 用 户 
室 间 将 可 以 通过 mmap 函数 返回 的 地 址 直接 访问 cam 设备 的 Frame Buffer. 


现在 看 一 下 allocate_frame_buf 函数 ， 看 看 驱动 程序 如 何 分 配 设 备 内 存 : 


<drivers/media/video/cpia2/cpia2 _ core.c> 


es sig ig uel 


int cpia2 allocate buffers(struct camera . data *cam) 


{ 


int i 


if('cam-frame buffer) | 
cam-—frame buffer = rvmalloc(cam-^frame size*cam-»num frames); 
if (!cam--frame buffer) { 
ERR("couldn't vmalloc frame buffer data area\n"); 
kfree(cam->buffers); 
cam->buffers = NULL; 
return -ENOMEM; 


f 
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j 


return 0; 


函数 需要 通过 rvmalloc 来 分 配 cam 设备 的 Frame Buffer, 其 中 cam->frame_size 表示 单个 帧 
缓冲 区 大 小 ，cam->num frames 是 cam 设备 拥有 的 Frame Buffer 的 数量 。rvmalloc 是 cpia2 
驱动 程序 自己 实现 的 一 个 内 存 分 配 函 数 ， 其 核心 是 调用 vmalloc_32 来 分 配 内 存 : 


static void *rvmalloc(unsigned long size) 


{ 


} 


void *mem; 


unsigned long adr; 


/* Round it off to PAGE SIZE */ 
size = PAGE ALIGN(size); 


mem = vmalloc 32(size); 
if (!mem) 
return NULL; 


memset(mem, 0, size}, /* Clear the ram out, no junk to the user */ 


adr = (unsigned long) mem; 


while ((long)size > 0) { 
SetPageReserved(vmalloc to page((void *Jadr)); 
adr += PAGE SIZE; 
size -= PAGE SIZE; 

} 


return mem; 


vmalloc 32 分 配 一 段 连 续 的 虚拟 地 址 ， 然 后 通过 内 核 的 伙伴 系统 分 配 相 应 的 物理 页 面 并 提 
交 到 前 面 的 虚拟 地 址 上 。 接 下 来 的 while 循环 中 ，vmalloc to page 函数 根据 虚拟 地 址 adr 
去 查找 页 目录 表 项 ， 得 到 该 虚拟 地 址 映射 到 的 物理 页 面 所 在 的 struct page 对 象 ， 然 后 用 
SetPageReserved 将 这 些 为 设备 帧 缓存 分 配 的 物理 页 面 标识 为 Reserved, SetPageReserved 用 
来 设置 内 核 虚 拟 地 址 所 对 应 的 struct page 对 象 的 PG. reserved 属性 ， 按 照 内 核 源 码 注 释 ， 被 
reserved 的 都 是 一 些 特殊 的 页 面 ， 这 些 页 面 最 显著 的 特性 是 脱离 了 内 核 VM 组 件 的 管理 ， 

因此 内 核 源码 说 用 SetPageReserved 设置 的 页 面 可 以 确保 不 会 被 交换 出 去 。 驱 动 程序 使 用 
remap pfn range 将 内 核 虚 拟 地 址 重新 映射 到 用 户 空间 ,， 本质 上 是 把 被 映射 的 内 核 虚 拟 地 址 
视 做 设备 内 存 , 比如 PCI 设备 的 MM 空间 和 IO 空间 ,这 些 空间 在 内 核 中 都 没有 对 应 的 struct 
page 对 象 ，SetPageReserved 从 某 种 意义 上 试图 将 系统 物理 页 面 模拟 成 设备 内 存 。 关 于 这 方 
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面 的 内 容 ， 在 内 核 VM 组 件 的 开发 演进 过 程 中 ， 意 见 其 实 并 不 统一 ， 读 者 可 以 阅读 
http://Iwn.net/Articles/161204/, XJ SetPageReserved 的 操作 是 ClearPageReserved. rvmalloc 
返回 的 是 内 核 虚 拟 地 址 空间 的 vmalloc 区 中 的 某 一 虚拟 地 址 ， 该 段 虚 拟 地 址 将 被 cam 设备 
用 做 Frame Buffer. 


cpia2 mmap AAA jH remap_pfn_range 将 用 户 进程 的 地 址 空间 映射 到 设备 帧 缓存 之 前 ， 
希 要 通过 调用 kvirt_to_pa 来 获得 vmalloc 区 中 虚拟 地 址 所 映射 到 的 物理 地 址 page， 这 样 调 
用 remap_pfn_range 国 数 的 第 三 个 参数 册 帧 号 就 可 以 通过 page>>PAGE_SHIFT 获得 ,图 10-5 
展示 了 这 一 过 程 ; 


1 GB 





3 GB 
;内核 空间 的 vin 1 Lot 


BEEN 用户 空间 的 WAP 区 
[  — ] 被 映射 的 物理 页 面 
图 10-5 cpia2 的 remap pfn range 应 用 示例 


图 中 驱动 程序 首先 通过 vmalloc 函数 在 内 核 空间 的 vmalloc 区 为 设备 的 帧 缓存 分 配 了 空间 ， 

该 空间 将 映射 到 两 个 物理 页 面 上 (它们 可 能 连续 也 可 能 不 连续 )， 然 后 驱动 程序 调用 
remap pfn range 将 用 户 空间 MMAP 区 的 一 段 虚 拟 内 存 也 映射 到 这 两 个 物理 页 面 上 。 这 个 
例子 也 展示 了 内 核 空间 的 虚拟 地 址 如 何 被 用 户 空间 地 址 所 映射 在 本 例 中 ， 内 核 空间 虚拟 
地 址 由 rvmalloc 分 配 ， 然 后 通过 mmap 机 制 将 rvmalloc 得 到 的 虚拟 地 址 重新 映射 回 用 户 空 
间 ， 更 确切 地 说 ， 通 过 kvirt to pa 函数 获得 rvmalloc 虚拟 了 地 址 映射 到 的 物理 页 面 ， 然 后 再 
建立 用 户 空 间 对 应 的 页 表 项 将 属于 和 它 的 一 段 虚拟 地 址 空间 映射 到 同样 的 物理 页 面 上 。 如 果 
cpia2 设备 的 Frame Buffer H kmalloc 这 样 的 函数 分 配 2, 因为 这 种 情形 下 获得 的 物理 页 面 是 
连续 的 ， 所 以 一 个 单 次 的 remap_pfn_range 就 可 以 完成 映射 的 任务 。 


把 上 述 过 程 总 结 一 下 就 是 ， 驱 动 通过 vmalloc 函数 分 配 设备 内 存 的 虚拟 地 址 ， 然 后 将 这 段 
虚拟 地 址 映射 的 物理 页 面 《 可 能 是 不 连续 的 ) 映射 到 用 户 进程 的 地 址 空间 ， 如 此 应 用 程序 
将 可 以 直接 使 用 这 些 给 设备 帧 缓存 使 用 的 物理 页 面 ， 而 无 须 经 内 核 周转 。 现 实 中 设备 缓存 


2 因为 映射 总 是 以 页 为 单位 ， 所 以 这 种 情况 下 最 好 是 用 _get_free_pages 这 样 的 页 面 级 分 配器 。 
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的 典型 用 法 是 在 设备 内 存 与 设备 缓存 间 建 立 一 个 DMA 通道 ， 这 样 设备 的 数据 将 以 极 融 的 
性 能 传递 到 驱动 程序 所 管理 的 设备 缓存 中 , 而 后 者 可 以 被 用 户 程序 直接 使 用 , 这 正 是 mmap 
机 制 要 完成 的 功能 所 在 。 关 于 DMA 通道 映射 将 是 本 章 下 半 部 分 的 语 题 。 


在 这 个 例子 中 ， 应 用 程序 通过 mmap 方法 获得 的 虚拟 地 址 所 映射 的 目标 地 址 依然 是 在 系统 
内 存 中 ， 然 而 现实 中 映射 到 设备 内 存 的 例子 更 为 常见 ， 比 如 在 Linux 显卡 驱动 程序 中 ，X 
server 运行 在 用 户 空间 , 在 其 启动 过 程 中 会 将 显卡 驱动 的 用 户 空间 部 分 3 以 .so 的 形式 加 载 进 
来 。 在 用 户 空间 运行 的 这 部 分 代码 如 果 想 要 访问 显卡 的 Frame Buffer 空间 或 者 是 MMIO 2 
[8], 就 可 以 使 用 mmap 这 种 方式 。 现在 显卡 设备 多 以 PCI 设备 形式 存在 , 它 的 Frame Buffer 
和 MMIO 空间 就 是 典型 的 设备 内 存 , 显卡 驱动 程序 通过 PCI 配置 空间 获得 显卡 设备 MMIO 
的 信息 (起 始 地 址 及 空间 太 小 范围 等 )， 然后 上 映射 到 用 户 空 间 虚 拟 地 址 区 域 。 这 其 实 是 典型 
的 用 户 空 间 驱 动 程序 用 以 访问 硬件 设备 资源 的 例子 ， 如 此 X server 将 可 以 直接 读 写 这 些 寄 
存 器 ， 而 不 必 经 由 ioctl 这 样 的 方式 。 


FHE X server lib 库 中 一 个 通过 mmap 方法 将 PCI 设备 地 址 宅 间 映射 到 用 户 空间 的 函数 ， 
显卡 驱动 程序 会 调用 该 函数 来 将 显卡 寄存 器 所 在 的 VO 空间 映射 到 用 户 空间 : 


static int 
pci device x86 map range(struct pci, device *dev, struct pci device mapping *map) 
{ 

int memfd = open("/dev/mem", O_RDWR); 

int prot = PROT READ; 


if (memfd — -1) 
return errno; 

if (map->flags & PCI DEV MAP FLAG WRITABLE) 
prot |» PROT WRITE; 


map->memory = mmap(NULL, map->size, prot, MAP SHARED, memfd, map->base); 
close(memfd); 


if (map->memory = MAP FAILED) 
return errno; 


return 0; 
} 


pci device x86 map range 函数 使 用 mmap 来 映射 PCI 的 总 线 地 址 到 用 户 空间 ，map->base 
就 是 PCI 设备 的 起 始 总 线 地 址 ，map->size 是 要 映射 的 地 址 范围 。 


因此 ， 如 果 remap_pfn_range 映射 的 地 址 不 属于 系统 的 RAM 区间， 比如 PCT 设备 的 IO 地 


3 Linux 下 的 显卡 驱动 非常 复杂 ， 常 常 涵 瘟 许多 模块 在 内 ， 既 有 用 户 空间 ， 也 有 内 核 空间 。 
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址 空间 等 ， 因 为 这 些 被 映射 的 物理 地 址 不 在 内 存 子 系统 的 管理 范畴 之 列 ， 它 们 没有 对 应 的 
struct page XY AR, [Alt ANE TERRA Bl ASE RAM 时 可 能 会 遭遇 到 的 问题 ， 所 以 在 这 些 情 
况 下 remap pfn range 的 使 用 方式 就 很 直接 。 


为 了 加 深 读 者 的 理解 ， 这 里 再 给 出 一 个 将 内 核 空间 某 一 物理 页 面 映 射 到 用 户 空间 的 例子 ， 
这 里 的 物理 页 面 其 实 可 引申 为 设备 的 内 存 (比如 某 PCI-E 显卡 设备 的 Frame Buffer 所 在 的 
总 线 地 址 0xd0000000)。 这 个 例子 将 展示 用 户 空 间 如 何 通过 mmap 来 映射 某 一 段 物 理 地 址 
空间 并 对 其 进行 操作 。 内 核 空间 的 物理 页 面 通过 alloc_pages 获得 ， 其 对 应 的 物理 地 址 将 用 
printk 打印 出 来 ， 这 样 用 户 空间 才 可 以 告诉 mmap 函数 要 映射 到 哪个 物理 页 面 上 。 为 了 使 
代码 简洁 ， 程 序 去 除了 对 错误 情况 的 处 理 。 首 先是 内 核 模 块 代码 mmap demo.c: 


#include <linux/module.h> 
#include «linux/kernel.h^ 
#include <linux/init.h> 


#include <linux/device.h> 
#include <linux/cdev.h> 
#include <linux/fs.h> 
#include <linux/fentl.h> 
#include <linux/gfp.h> 
#include <linux/string.h> 
#include <linux/mm_types.h> 
#include <linux/mm.h> 
#include <linux/highmem.h> 


#define KSTR DEF "Hello world from kernel virtual space" 


static struct cdev *pcdev; 
static dev t ndev; 

static struct page *pg; 

static struct timer list timer; 


/定时 器 函数 ， 打 印 出 被 映射 的 物理 页 面 的 内 容 

static void timer_func(unsigned long data) 

{ 
printk("timer_func:%s\n", (char *)data); 
timer.expires = jiffies + HZ*10; 
add_timer(&timer); 

j 


static int demo opení(struct inode *inode, struct file *filp) 
{ 

return 0: 
} 
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static int demo release(struct inode *inode, struct file *filp) 


( 


return 0: 


static int demo mmapí(struct file *filp, struct vm area struct *vma) 
{ 
int err = 0; 
unsigned long start = yma->vm_ start; 
unsigned long size = vma->vm end - vma->vm_start; 
//F] remap pfn range 将 用 户 空间 地 址 映射 到 内 核 空间 的 物理 页 面 
err = remap pfn range(vma, start, vma->vm_pgoff, size, vma->vm_page_prot); 
return err; 


static struct file operations mmap fops = 
i 

.owner = THIS MODULE, 

open = demo open, 

release — demo release, 

.mmap = demo, mmap. 


}; 


static int demo_map_init(void) 
{ 

int err = 0; 

char *kstr; 


/在 高 端 物 理 内 存 区 分 配 一 个 页 面 

pg =alloc_pages(GFP_HIGHUSER, 0); 

/设置 页 面 的 PG reserved 属性 ， 防 止 映射 到 用 户 空间 的 页 面 被 swap out 出 去 
SetPageReserved(pg); 

1/1 因为 物理 页 面 来 自 高 端 内 存 ， 所 以 在 使 用 前 需要 调用 kmap 为 该 物理 页 面 建立 映射 
/关系 

kstr = (char *)kmap(pg); 

strcpy(kstr, KSTR_ DEF); 

printk("kpa = 0x%X, kernel string = %s\n", page to phys(pg), kstr); 


pedev = cdev alloc(); 

cdev init(pcdev, &mmap fops); 

alloc chrdev region(&ndev, 0, 1, "mmap dev"); 

printk("major = %d, minor = %d\n", MAJOR(ndev), MINOR(ndev)); 
pedev->owner = THIS MODULE; 

cdev add(pcdev, ndev, 1); 
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/1 创建 定时 器 每 阳 10 秒 打 印 一 次 被 映射 的 物理 页 面 中 的 内 容 
init timer(&timer); 

timer.function = timer func; 

timer.data — (unsigned long)kstr; 

timer.expires = jiffies + HZ*10; 

add timer(&timer); 


return err; 


} 


static void demo map exit(void) 

{ 
del timer sync(&timer); 
edev_del(pedev); 
unregister_chrdev_region(ndev, 1); 
kunmap(pg); 
ClearPageReserved(pg); 
. free pages(pg, 0); 

} 


module init(demo map init); 
module exit(demo map exit); 


MODULE AUTHOR("“dennis chen (2) AMDLinuxFGL"), 
MODULE DESCRIPTION("A demo kernel module to remap a physical page to the user space"); 
MODULE LICENSE("GPL"); 


内 核 模块 使 用 了 定时 器 每 隔 10 秒 钟 打印 被 用 户 空间 映射 的 物理 页 面 的 内 容 , 这 样 就 可 以 验 
证 该 物理 页 面 是 否 可 以 在 用 户 空间 被 改写 。 


该 内 核 模块 在 2.6.39 内 核 版 本 的 Linux 系统 上 编译 通过 ， 对 应 的 Makefile Jj: 


obj-m := mmap demo.o 
KERNELDIR := /lib/modules/$(shell uname -r)/build 
PWD := $(shell pwd) 


default: 

S(MAKE) -C $(KERNELDIR) M-$(PWD) modules 
clean: 

tm -f *.o *.ko *.mod.* 


对 应 的 应 用 程序 为 : 


#include <stdio.h> 
#include <stdlib.h> 
#include <string.h> 
#include <sys/types.h> 
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#include <sys/stat.h> 
#include <fentl.h> 
#include <unistd.h> 
#include <sys/mman.h> 


#define MAP_SIZE 4096 
#define USTR_DEF "String changed from the User Space" 


int main(int arge, char *argv[]) 
{ 

int fd; 

char *pdata; 


if(argc <= 1)( 
printf("Usage: main devfile pamapped n"); 
return 0; 
} 
fd = open(argv[1], O_RDWRIO NDELAY); 
if(fd >= 0 
pdata = (char *)mmap(0, MAP SIZE, PROT READ|PROT WRITE, MAP SHARED, 
fd, strtoul(argv[2], 0, 16)); 
printf("UserAddr = %op, Data from kernel:*oswn", pdata, pdata); 
print" Writing a string to the kernel space..."); 
strcpy(pdata, USTR DEF); 
print" Donen"); 
munmap(pdata, MAP SIZE); 
close(fd); 


return 0; 
j 


应 用 程序 首先 用 mmap 来 映射 内 核 空 间 的 物理 页 面 ， 然 后 读 取 其 内 容 ， 紧 接着 进行 改写 。 
首先 将 内 核 模 块 加 入 系统 : 

root@AMDL inuxFGL:/home/dennis/book/chap10/mmap# insmod mmap_demo.ko 
dmesg 针对 土 述 指令 的 输出 为 : 


root(@AMDLinuxF GL:/home/dennis/book/chap!0/mmap# dmesg 
[17194.802286] kpa = 0x3358E000, kernel string = Hello world from kernel virtual space 
[17194.802290]major = 249, minor = 0 


根据 上 述 信 息 ， 要 映射 的 物理 页 面 起 始 地 址 为 0x3358E000， 主 次 设备 号 分 别 为 249 和 0, 
可 据 此 创建 一 个 设备 节点 ; 
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root(a)A MDLinuxFGL:/home/dennis/book/chap 1 0/mmap? mknod /devidemo_map c 249 0 
设备 节 氮 创建 好 之 后 ， 现 在 可 以 运行 应 用 程序 了 : 

root@AMDLinuxF GL:/home/dennis/book/chap l O/app#./main /dev/demo map 0x3358E000 
应 用 程序 输出 信息 如 下 : 


UserAddr = 0xb7767000, Data from kernel: Hello world from kernel virtual space 


writing a string to the kernel space... Done 
此 时 再 用 dmesg 看 看 内 核 的 输出 : 


root@A MDLinuxF GL. /home/dennis/book/chap10/mmap# dmesg 

[17194.802286] kpa = 0x3358E000, kernel string = Hello world from kernel virtual space 
[17194.802290]major = 249, minor = 0 

[17204.832010]timer func: Hello world from kernel virtual space 

[17214.848005]timer func: Hello world from kernel virtual space 

[17234.880009 timer func: String changed from the User Space 


最 后 一 条 信息 表明 用 户 空间 已 经 成 功 改写 了 被 映射 的 物理 页 面 中 的 内 容 。 通 过 这 个 例子 ， 

我 们 看 到 应 用 程序 只 需 通过 mmap 一 次 系统 调用 ， 就 可 以 直接 操作 物理 内 存 〈 或 是 设备 内 
仔 )， 因 此 如 果 需 要 在 用 户 空 间 和 内 核 空 间 之 间 传 输 数据 ， 相 对 于 copy from user 以 及 
copy to user, {EH mmap 的 优势 是 不 言 而 喻 的 。 


Q io remap pfn range 


io remap pfn range X: VJ A BEDEBJ S3 Sb AAR H "8 TR) HE Ye Be, 从 函数 名 称 
上 来 看 , 它 与 remap. pfn range 的 区 别 是 io remap pfn range 用 来 将 用 户 地 址 映射 到 设备 的 
LO 空间， 而 remap pfn range 则 是 将 用 户 地 址 映射 到 主 存 RAM 中 。 然 而 这 只 是 函数 名 称 
上 的 区 分 , 在 Linux 内 核 的 实际 代码 中 , 对 于 绝 大 多 数 常见 的 体系 架构 , io remap pfn range 
与 remap pfn range 是 完全 等 价 的 《因为 映射 的 核心 是 MMU， 而 对 MMU 来 说 ， 无 须 区 分 
映射 的 目标 地 址 类 型 )。 比 如 对 于 x86 FS: 


<arch/x86/include/asm/pgtable.h> 


#define io remap pfn range(vma, vaddr, pfn, size, prot) \ 
remap pfn range(vma, vaddr, pfn, size, prot) 


LR d oe GE RH don de dh c4 3o» - .:* Gov om 


对 于 ARM 平台 : 


#define io remap pfn range(vma,from,pfn,size,prot) \ 
remap pfn range(vma, from, pfn, size, prot) 
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但 是 从 代码 易 读 性 的 角度 ， 建 议 如 果 映 射 的 目标 地 址 是 在 RAM 或 者 是 ， 比 如 PCI 设备 的 
MM 空间 中 ， 使 用 remap_pfn_range 函数 ， 如 果 映 射 的 目的 地 址 是 在 设备 UO e 
使 用 io remap. pfn range Á$. 


本 书 第 三 章 讨论 过 ioremap 函数 , 它 与 io_remap pfn range 函数 的 区 别 是 , 前 者 用 来 将 设备 
的 VO 空间 映射 到 内 核 空 间 ， 而 后 者 则 是 将 设备 的 I/O 空间 映射 到 用 户 空间 。 


10.2.6 munmap 


munmap 做 的 事情 与 mmap 怡 好 相反 ， 不 过 严格 意义 上 这 个 话题 并 不 属于 设备 驱动 程序 的 
范畴 。 换 名 话说， 设备 驱动 程序 无 须 为 munmap 行为 做 特定 的 工作 ， 内 核 会 根据 现 有 的 映 
射 信 息 拆除 在 mmap 中 建立 的 页 表 项 , 反映 到 驱动 程序 的 file operations 对 象 上 ， 里 面 只 有 
mmap 方法 而 无 对 应 的 munmap。 


对 于 应 用 程序 而 言 ， 这 个 API 函数 的 原型 是 : 


int munmap(void *start, size_t length); 


参数 start 应 是 mmap 函数 返回 的 地 址 ， 表 示 要 拆除 映射 的 虚拟 地 址 段 的 起 始 地址 。 length 
则 应 与 调用 mmap 函数 时 保持 一 致 。 


在 内 核 中 ， 它 对 应 的 系统 调用 为 : 


<mm/mmap.c> 


有 


int ret; 

struct mm struct *mm = current->mm; 
profile munmap(addr); 

down write(&mm--mmap sem); 

ret - do munmap(mm, addr, len); 

up write(&mm--mmap sem); 

return ret; 


j 


其 中 的 核心 调用 是 do_munmap 国 数 ， 有 具体 的 技术 细节 不 再 深入 讨论 。 下 面 给 出 撤销 映射 页 
表 项 相关 的 调用 链 : =do_munmap()>unmap_region()>unmap_region()>free_pgtables()> 
free _pgd_range()>free pud range()> free pmd range()?free_pte range(). 


总 体 思想 是 通过 虚拟 地 址 找到 对 应 的 页 目录 项 和 页 表 项 ， 然 后 清除 这 些 页 目录 表 项 中 的 相 
应 内 容 ， 从 而 撤销 掉 mmap 建立 的 虚拟 地 址 到 物理 页 面 的 映射 关系 。 
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10.3 DMA 


直接 内 存 访问 DMA (Direct Memory Access) 用 来 在 设备 内 存 与 主 存 RAM 之 间 直 接 进行 数 
据 交 换 ， 因 为 这 个 过 程 无 须 CPU 的 干预 ， 所 以 对 于 与 系统 有 大 量 数据 区 换 的 设备 而 言 ， 如 
果 能 充分 利用 DMA 特性 ， 可 以 大 大 提高 系统 性 能 。 这 种 情况 对 长 备 驱动 程序 所 出 了 新 的 
要 求 ， 即 必须 能 很 好 地 支持 设备 的 DMA 操作 。 


本 节 将 首先 讨论 Linux ARB PAY DMA B, 然后 再 讨论 DMA 操作 的 核心 即 DMA 内 存 映射 ， 
包括 一 致 性 DMA 映射 、 流 式 DMA RSH AS) UE 4E Bit fj] 


10.3.1 内 核 中 的 DMA Æ 


为 了 方便 设备 驱动 程序 的 开发 ， 内 核 为 设备 驱动 程序 提供 了 统一 的 DMA 接口 ， 这 些 接口 
屏蔽 了 不 同 平台 之 间 的 差异 ， 因 此 使 用 内 核 DMA 层 提 供 的 接口 的 设备 驱动 程序 将 具有 更 
好 的 可 移植 性 。 当 然 不 同 平台 的 Linux 内 核 需要 提供 特定 平台 的 DMA 映射 操作 代码 ， 比 
如 x86 或 者 ARM 平台 ， 不 过 这 不 是 设备 驱动 程序 员 要 做 的 工作 。 


在 继续 下 面 的 讨论 之 前 ， 先 给 出 Linux AK DMA 层 的 一 个 大 体 框架 (图 10-6)， 以 帮助 读 
者 建立 一 个 感性 的 认识 。 


dma 


| map single 


dma alloc coherent 


| DMA Layer 





图 10-6 Linux 内 核 DMA Layer 框架 


从 图 中 可 以 看 到 ，Linux 内 核 中 的 DMA 层 为 设备 驱动 程序 提供 标准 的 DMA 映射 接口 ， 例 
如 一 致 性 映射 类 型 的 dma_alloc_coherent 和 流 式 映射 类 型 的 dma map single。 在 DMA 层 的 
下 方 ， 不 同 平台 的 Linux 内 核 代码 实现 平台 相关 的 DMA 有 映射 操作 ， 如 此 ， 通 过 DMA 层 
Linux 系统 为 设备 驱动 程序 屏蔽 了 平台 的 差异 。 


按照 Linux 内 核对 DMA 层 的 架构 设计 , 各 平台 DMA 缓冲 区 映射 之 间 的 差异 应 该 由 内 核定 
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义 的 一 个 DMA 映射 操作 集 struct dma map ops 对 象 来 完成 ， 换 向 话 说 不 同 平 台 应 该 提供 
各 自 的 struct dma map ops 对 象 来 实现 相应 的 DMA 映射 。 但 不 幸 的 是 ， 笔 者 写 这 本 书 时 
偏偏 是 以 x86 和 ARM 架构 为 重点 ,在 对 比 这 两 个 平台 的 实现 代码 时 ， 发 现 ARM 架构 上 的 
代码 对 struct dma map ops 对 象 的 支持 很 不 给 力 ， 它 常常 绕 开 dma_map_ops 对 象 而 自 成 一 
派 ， 使 得 Linux 内 核 中 DMA 层 的 实现 代码 风格 不 太 统 一 。 作 者 对 此 的 理解 是 ，x86 是 一 种 
标准 的 硬件 平台 ， 内 核 开 发 者 很 容易 得 到 这 种 平台 的 测试 环境 ， 因 此 回 内 核 社区 提交 x86 
平台 的 代码 相对 比较 容易 。 而 ARM 则 主要 以 一 种 SoC 的 形态 存在 ， 其 硬件 平台 环境 在 现 
实 中 往往 千差万别 ， 鉴 于 这 种 情况 ， 主 流 的 Linux 内 核 源 码 树 对 ARM 的 支持 更 多 的 是 在 
处 理 器 的 核心 层面 ， 其 象征 意义 往往 要 大 于 实际 意义 ， 这 也 是 为 什么 主流 的 Linux 内 核 必 
须 加 入 特定 的 基于 ARM 的 某 一 SoC 平台 的 BSP 代码 才能 构成 完整 内 核 的 原因 ， 鉴 于 本 书 
对 于 ARM 平台 的 代码 分 析 都 出 自 标准 的 Linux 内 核 源码 树 〈 源 自 www.kernel.org)， 因 此 
对 于 在 ARM FA GERE Linux 开发 的 那些 读者 来 说 ， 很 可 能 会 发 现 本 书 中 摘录 的 ARM 
平台 的 代码 与 自己 手边 针对 某 一 ARM 开发 板 的 Linux 代码 间 会 有 些 偏差 ， 但 是 作者 相信 
这 细微 偏差 的 背后 所 冀 含 的 原理 一 定 是 一 样 的 。 


最 后 ， 作 为 对 一 个 struct dma map ops 对 象 的 直观 感受 ， 我 们 看 看 Linux 为 它 定义 的 数据 
结构 ; 


<include/linux/dma-mapping.h> 
struct dma_map ops { 
void* (*alloc coherent)(struct device *dev, size t size, 
dma addr t *dma handle, gfp t gfp); 

void (*free coherent)(struct device *dev, size t size, 
void *vaddr, dma addr t dma handle); 

dma addr t(*map page)(struct device *dev, struct page *page, 
unsigned long offset, size t size, enum dma data direction dir, 
struct dma attrs *attrs); 

void (*unmap page)(struct device *dev, dma addr t dma handle, 
size tsize, enum dma data direction dir, struct dma attrs *attrs); 

int (*map sg)(struct device *dev, struct scatterlist *sg, int nents, 
enum dma data direction dir, struct dma attrs *attrs); 

void (*unmap sg)(struct device *dev, struct scatterlist *sg, int nents, 
enum dma data direction dir, struct dma attrs *attrs); 

void (*sync single for cpu)(struct device *dev, dma addr t dma handle, size t size, 
enum dma data direction dir); 

void (*sync single for device)(struct device *dev, dma addr t dma handle, size t size, 
enum dma data direction dir); 

void (*sync sg for cpu)(struct device *dev, struct scatterlist *sg, int nents, 
enum dma data direction dir); 

void (*sync sg for device)(struct device *dev, struct scatterlist *sg, int nents, 
enum dma data direction dir); 

int (*mapping error)(struct device *dev, dma addr t dma addr); 
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int (*dma supported)(struct device *dev, u64 mask); 
int (*set dma mask)(struct device *dev, u64 mask); 
int is phys; 
h 
struct dma map ops 中 定义 的 DMA 操作 的 方法 涵盖 了 本 章 所 有 内 容 , 相关 细节 将 在 本 章 后 
续 内 容 中 慢 慢 讨论 。 


10.3.2 物理 地 址 与 总 线 地 址 


出 于 下 面 讨 论 的 需要 ， 这 里 需要 了 解 一 下 在 设备 驱动 程序 中 经 常 出现 的 总 线 地 址 的 概念 ， 
作为 对 比 在 此 给 出 另 一 个 地 址 类 型 CPU 的 物理 地 址 。 


所 谓 CPU 物理 地 址 ， 即 CPU 的 地 址 信号 线 上 产生 的 地 址 。 在 有 MMU 的 系统 中 ，CPU 执 
行 的 程序 指令 中 的 地 址 是 虚拟 地 址 ， 经 过 MMU 的 转换 ， 虚 拟 地 址 转变 为 物理 地 址 用 来 驱 
动 CPU 的 地 址 信号 线 ， 或 者 用 来 访问 系统 主 存 RAM， 或 者 用 来 访问 设备 1/O 空间 (对 于 
x86 架构 而 言 ， 需 要 专门 的 IO 指令 ， 至 于 访问 的 是 系统 主 存 还 是 IO 空间 ， 要 由 特定 的 控 
制 信号 线 决定 。 而 对 于 ARM 架构 ， 主 存 和 VO 空间 统一 编 址 ， 由 统一 的 指令 访问 )。 


而 总 线 地 址 ， 可 以 简单 认为 是 从 设备 角度 看 到 的 地 址 ， 不 同类 型 的 总 线 具 有 不 同类 型 的 总 
线 地 址 ， 目 前 最 常见 的 是 PCI 总 线 。 图 10-7 是 一 典型 的 PC 架构 的 数据 通道 示意 : 


+ CPU 一 RAM 通 首 





设备 1 设备 2 
4— DMA 通道 lac 


图 10-7 PC 架构 的 数据 通道 


从 图 中 可 以 看 到 两 条 典型 的 数据 交换 通道 : 一 条 是 从 CPU 到 系统 主 存 RAM, CPU 核心 使 
用 的 是 虚拟 地 址 ， 经 过 MMU 转化 成 物理 地 址 ， 用 来 访问 RAM: 另 一 条 是 设备 与 主 存 之 间 
的 DMA 通道 ， 这 里 从 设备 的 角度 看 过 去 ， 与 主 存 进行 数据 传输 时 ， 使 用 的 是 总 线 地 址 。 
对 于 x86 FEMEA. MA CPU 地 址 总 线 出 来 的 信号 实际 上 都 纳入 了 PCI 总 线 的 范畴 ,我 们 在 
上 图 中 简单 地 将 CPU 到 主 存 之 间 的 地 址 称 为 物理 地 址 , 而 将 北桥 通 往 南 桥 的 地 址 称 为 总 线 
地 址 。 事 实 上 南 桥 之 下 的 大 部 分 PCI 设备 都 会 将 自己 的 存储 空间 或 者 映射 到 CPU 的 RAM 
空间 或 者 映射 到 CPU 的 IO 空间 ， 从 这 个 角度 ,CPU 与 南 桥 之 间 的 地 址 通道 就 是 PCI 总 线 
地 址 。 
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在 笔者 撰写 本 章 的 时 候 ，2011 年 国际 消费 电子 展 正在 拉 斯 维 加 斯 如 火 如 茶 地 进行 ， 在 这 次 
展会 上 AMD 展示 了 从 2006 年 收购 ATI 公司 以 来 fusion 理念 的 结晶 一 一 APU 处 理 器 : 将 
GPU 和 CPU 真正 地 融 聚 到 了 单一 芯片 中 。CPU 和 GPU 的 融 聚 目前 正在 成 为 趋势 ,这 也 意 
味 着 CPU 已 经 在 慢 慢 吞噬 北桥 的 功能 , 从 目前 的 技术 发 展 来 看 , TAD ARBITER BA, 
南 桥 也 将 会 被 CPU PTER, JÉRE APU RA SoC, F8 10-7 将 会 成 为 一 代 永 恒 经 典 。 





总 之 ， 这 是 个 跟 体系 架构 与 系统 设计 密切 相关 的 概念 ， 对 于 设备 驱动 程序 员 而 言 ， 其 实 更 
关心 的 是 DMA 地 址 ， 它 用 来 在 设备 与 主 存 之 间 寻 址 ， 虽 然 它 就 是 总 线 地 址 ， 但 是 从 内 核 
代码 的 角度 ， 它 被 叫做 DMA 地 址 ， 与 之 相对 应 的 数据 结构 是 dma addr t。 设 备 驱动 程序 
员 可 以 不 必 清 楚 物 理 地 址 与 总 线 地 址 间 这 种 形 而 上 的 区 别 , 但 是 一 定 要 明白 dma addr t 的 
概念 ， 因 为 在 实际 工作 中 ， 与 它 打 交道 的 机 会 要 远 远 大 于 如 何 摘 明 白 物理 地 址 与 总 线 地 址 
的 区 别 。 


10.3.3 dma set mask 


该 函数 用 来 查询 设备 的 DMA 寻 址 范围 ， 如 果 设 备 对 象 dev 的 DMA 操作 支持 参数 mask 18 
ERGEL MAGRE] 0， 否 则 返回 一 负 的 错误 代码 。 设 备 对 象 dev 在 其 成 员 dma mask 
中 来 标识 其 DMA 寻 址 范围 。 该 函数 在 x86 平台 上 的 实现 为 : 
<archixe6lkemellpcdmac> — — — sese 
int dma set mask(struct device *dev, u64 mask) 
i 
if (!dev->dma_miask || !dma supported(dev, mask)) 
return -EIO; 
*dev->dma_ mask = mask; 
return 0; 


} 


其 中 dma supported 的 内 部 通过 获得 的 设备 dev 上 定义 的 struct dma map. ops WR GAM KR 
表示 对 应 设备 上 的 一 个 DMA 操作 集 ) 的 dma supported 成 员 来 获得 设备 上 DMA 的 寻 址 范 
围 信 息 ， 如 果 设 备 没 有 实现 其 dma supported 方法 ， 则 内 核 将 采用 默认 值 : 


m am oar om m m Gm Gm AROOND 7D RLOOHE Hs ee ee ee ee 


int dma supported(struct device *dev, u64 mask) 


{ 
struct dma map ops *ops = get dma ops(dev); 
if (ops->dma supported) 
return ops->dma_supported(dev, mask); 
} 


因为 在 Linux 设备 驱动 模型 中 ， 设 备 和 驱动 是 各 自分 开 进 行 的 ， 所 以 只 有 设备 对 象 dev 本 
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身 才 对 自己 的 DMA 操作 能 力 最 为 清楚 ， 所 以 为 了 支持 dma set mask 功能 ，dev 需要 提供 
其 dma ops 成 员 (dev->archdata.dma ops) 上 的 dma_supported 方法 的 实现 .而 dma_set_mask 
的 调用 者 则 多 半 是 在 dev 的 驱动 driver 的 探测 函数 probe 中 , 以 下 是 Linux 内 核 源 码 中 网 络 
设备 驱动 使 用 dma set mask 来 获得 其 驱动 的 设备 DMA 寻 址 能 力 的 例子 ; 
<drivers/net/e1000e/netdev.c> 
static int ___devinit e1000. probe(struct pci, dev "pdev, - n 
const struct pci device id *ent} 


{ 


pei using dac = 0; 
err = dma set mask(&pdev--dev, DMA BIT MASK(64)), 
if (terr) { 
err = dma set coherent mask(&pdev--dev, DMA BIT MASK(64)); 
if (err) 
pei using dac = 1; 
} else { 
err = dma set mask(&pdev--dev, DMA_BIT_MASK(32)); 
if (err) { 
err = dma_set_coherent_mask(&pdev->dev, 
DMA BIT MASK(32)); 
if (err) { 
dev err(&pdev-—dev, "No usable DMA " 
"configuration, aborting'n"); 


goto err dma; 


10.3.4 DMA 映射 


DMA 映射 主要 为 在 设备 与 主 存 之 间 建 立 DMA 数据 传输 通道 时 ， 在 主 存 中 为 该 DMA 通道 
分 配 内 存 空间 的 行为 ， 该 内 存 空间 也 称 为 DMA 缓冲 区 。 这 个 任务 原本 可 以 很 简单 ， 但 是 
由 于 现代 处 理 器 cache 的 存在 ， 使 得 事情 变 得 有 点 复杂 。 


图 10-8 显示 了 在 主 存 RAM 和 一 个 设备 之 间 建 并 DMA 通道 时 在 RAM 中 建立 的 一 个 DMA 
映射 。 因 为 现代 处 理 器 为 了 提升 系统 性 能 在 CPU 与 RAM 之 间 加 入 了 高 速 缓 存 cache， 所 
以 当 在 RAM 中 为 一 个 DMA 通道 建立 一 段 绥 冲 区 时 ， 必 须 仔 细 考 虚 RAM 与 cache 内 容 的 
一 致 性 问题 ,比如 在 该 图 中 ,如 果 RAM 与 Device 之 间 的 一 次 数据 交换 改变 了 RAM 中 DMA 
缓冲 区 的 内 容 , 假设 在 这 个 案例 里 恰好 cache 中 缓存 了 DMA 缓冲 区 对 应 的 RAM 中 一 段 内 
存 块 , 如 果 没有 一 种 机 制 确保 cache 中 的 内 容 被 新 的 DMA 缓冲 区 数据 所 更 新 (或 者 无 效 )， 
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那么 很 明显 cache 和 它 对 应 的 RAM 中 的 一 段 内 存 块 在 内 容 上 出 现 了 不 一 致 性 . 若 此 时 CPU 
试图 去 读 取 Device 传 到 RAM 的 DMA 缓冲 区 中 的 数据 ， 它 将 直接 从 cache 获得 数据 ， 这 
些 数据 显然 不 是 它 所 期 望 的 ， 因 为 cache 对 应 的 RAM 中 的 数据 已 经 被 更 新 了 。 | 





图 10-8 DMA 通道 与 缓冲 区 示意 图 


对 于 设备 驱动 程序 员 而 言 , cache 与 DMA 缓冲 区 中 数据 的 不 一 致 的 问题 必须 被 小 心 予 以 处 
理 ， 如 同 互 斥 问题 导致 的 系统 不 稳定 一 样 ， 这 些 问 题 在 实际 中 的 表现 可 能 非常 隐 项 ， 因 此 
要 求 驱动 程序 员 需 要 透彻 了 解 DMA 映射 的 内 幕 机 制 . 

单 就 cache 一 致 性 的 问题 , 不同 的 体系 架构 有 不 同 的 策略 ， 有 些 是 在 硬件 层面 予以 保证 ( 比 
如 x86 平台 )， 有 些 则 设 有 硬件 支持 而 需要 软件 的 参与 【比如 ARM FE). Linux 内 核 中 的 
通用 DMA 层 尽 力 为 你 备 驱 动 程序 提供 统一 的 接口 来 处 理 cache 缓存 一 致 性 的 问题 , 而 将 大 
量 平台 相关 的 代码 对 设备 驱动 程序 隐藏 起 来 。 

下 面 根据 DMA 映射 的 三 种 情况 来 分 别 讨 论 这 些 接口 。 

O 一 致 性 DMA 映射 


Linux 内 核 DMA 层 为 一 致 性 DMA 映射 提供 的 接口 函数 为 dma_alloc coherent, 其 函数 原型 是 : 
static inline void * 
dma alloc coherent(struct device *dev, size_t size, dma addr t *dma_handle, gfp t gfp) 
函数 分 配 的 一 致 性 DMA 缓冲 区 的 总 线 地 址 (也 就 是 DMA 地 址 ) 由 参数 dma handle 带 回 ， 
随 数 返回 的 则 是 映射 到 DMA 缓冲 区 的 虚拟 地 址 的 起 始 地 址 。 
前 面 提 到 cache 一 致 性 问题 时 讲 到 ， 不 同体 系 架构 对 该 问题 的 处 理 不 尽 相同 ， 所 以 反映 到 
该 函数 的 具体 实现 上 ， 不 同 平台 必然 会 有 不 同 的 实现 代码 。 下 面 以 x86 和 ARM 平台 为 例 ， 
分 别 讨论 这 两 个 平台 上 dma alloc coherent 函数 的 实现 。 


对 于 x86 F, dma alloc_coherent 的 核心 代码 如 下 : 
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<arch/x86/include/asm/dmap-mapping.h> 
static inline void * 
dma_alloc_coherent(struct device *dev, size_t size, dma_addr_t *dma_handle, 
gfp t gfp) 
i 
struct dma map ops *ops = get dma ops(dev); 
void *memory; 
gfp&--( GFP DMA| GFP HIGHMEM| GFP DMA32), 
if(dma alloc from coherent(dev, size, dma handle, &memory)) 
return memory; 


memory = ops->alloc_coherent(dev, size, dma handle, 
dma alloc coherent gfp flags(dev, gfp)); 


return memory; 


} 


前 数 首 先 试图 通过 dma alloc from coherent 在 per-device 的 一 致 性 存储 区 域 中 分 配 所 需 的 
DMA 缓冲 区 ， 具 体 地 per-device 的 一 致 性 存储 区 域 放 在 dev->dma_mem 中 。 不 过 这 种 分 配 
情况 并 不 常见 ， 所 以 dma alloc coherent 实际 上 会 通过 ops->alloc_coherent(0) 函 数 来 为 当前 
DMA 传输 分 配 缓 冲 区 ， 对 于 x86 平台 ，ops->alloc coherent 指向 的 实际 函数 为 
dma generic alloc coherent. 。 后 者 会 根据 指定 的 需要 分 配 缓冲 区 的 大 小 size 调用 
alloc pages node 来 获得 一 组 连续 的 物理 页 面 ， 如 果 分 配 成 功 ， 将 会 把 这 种 物理 页 面 的 起 始 
物理 地 址 放 到 dma addr 中 返回 供 后 续 DMA 通道 传输 数据 时 使 用 , 同时 会 把 该 组 物理 页 面 
对 应 的 起 始 虚 拟 地 址 作为 返回 值 返 回 ; 


<arch/x86/kernel/pci-dma.c> 
void *dma generic alloc coherent(struct device *dev, size t size, 
dma addr t *dma_addr, gfp t flag) 


{ 


flag |= GFP ZERO; 
again: 
page = alloc pages node(dev to node(dev), flag, get order(size)); 


addr = page to phys(page); 
*dma addr — addr; 
return page address(page); 


} 


因为 x86 平台 由 硬件 处 理 cache 一 致 性 问题 ,所 以 此 时 的 一 致 性 DMA 映射 的 建立 只 需 保 证 
能 获得 一 组 所 需要 大 小 的 连续 的 物理 页 面 即 可 。 
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作为 对 比 ， 再 来 看 一 下 ARM 平台 如 何 通过 软件 层面 来 保证 这 种 cache 的 一 致 性 ; 


<arch/arm/mm/dma- -mapping.c> 
void * dma_alloc_coherent(struct device *dev, size_t size, ,dma | addr -t *handle, gfp t afp) 
{ 


void *memory; 
if (dma_alloc_from_coherent(dev, size, handle, &memory)) 
retum memory; 
return — dma alloc(dev, size, handle, gfp, 
Pgprot dmacoherent(pgprot kernel)); 
} 


K X F HY) dma alloc from coherent 与 x86 平台 完全 一 样 ， 不 再 讨论 。 下 面 重 点 看 
. dma alloc， 其 实现 为 : 


«arch/arm/mm/dma- -mapping.c> 


Te 


static void * 
. dma alloc(struct device *dev, size t size, dma addr t *handle, gfp t gfp, 
pgprot_t prot) 


*handle = ~0; 
= PAGE ALIGN(size); 
page= dma alloc buffer(dev, size, gfp); 


if ('arch is coherent()) 

addr = — dma alloc remap(page, size, gfp, prot); 
else 

addr = page address(page); 


if (addr) 
*handle = page to dma(dev, page); 


return addr; 
. 
函数 首先 调用 _dma alloc buffer 来 分 配 大 小 为 size 的 一 段 连续 的 物理 内 存 页 ， 因 为 ARM 
不 是 通过 硬件 来 保证 cache 一 致 性 ， 所 以 在 ”dma _alioc_ buffer 中 ， 除 了 分 配 一 段 连续 的 物 
理 页 面 外 ， 还 会 对 这 段 物理 页 面 对 应 的 虚拟 地 址 调用 dma flush range， 使 其 对 应 的 cache 
和 write buffer 无 效 (invalidated)， 这 使 得 CPU 无 论 对 主 存 进 行 读 或 者 写 操 作 ， 都 不 会 因为 
cache 和 write buffer 的 存在 而 导致 DMA 操作 时 出 现 cache 一 致 性 问题 ; 


<arch/arm/mm/dma-mapping.c> 


a rr 
Se ee ee ee c. — miro eee 


static struct page *  dma alloc | buffer(struct device *dev, size t size, gfp - t gfp) 
{ 
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page = alloc_pages(gfp, order); 


ptr = page address(page); 
memset(ptr, 0, size); 
dmac flush range(ptr, ptr + size); 


} 


继续 _dma_alloc 函数 的 讨论 ，，dma alloc buffer 的 调用 使 得 我 们 获得 了 一 组 连续 的 物理 
页 面 ， 而 且 对 应 的 虚拟 地 址 范围 已 经 使 cache 失效 ， 这 是 ARM 平台 在 软件 层面 保证 cache 
一 致 性 的 第 一 道 工序 。 


. dma alloc 函数 中 的 arch. is coherent 返回 0， 这 表明 ARM 不 是 一 种 通过 硬件 保证 cache 
一 致 性 的 平台 ， 所 以 需要 调用 ”dma alloc remap 函数 来 确保 cache 一 致 性 ， 这 个 函数 要 做 
的 工作 其 实 是 重新 建立 页 表 项 来 映射 ”dma_alloc_buffer 分 配 的 一 组 物理 页 面 , 通过 在 新 建 
的 页 表 项 关闭 映射 区 的 cache 功能 来 解决 cache -- 致 性 问题 ,更 进一步 的 细节 是 ARM EE 
拟 地 址 空间 的 [0xFFC00000,0xFFE00000] 这 一 2 MB 的 虚拟 地 址 空间 保留 做 uncached 的 
DMA 映射 空间 ， 这 个 区 间 的 映射 都 是 将 cache 功能 关闭 的 。 


所 以 _dma alloc remap 的 功能 是 在 [0xFFC00000,0xFFE00000] 区 间 寻 找 一 段 虚 拟 地 址 段 ， 
将 其 重新 映射 到 dma_alloc_buffer 分 配 的 一 组 物理 页 面 , 由 于 这 种 映射 关闭 了 cache 功能 ， 
所 以 保证 了 DMA 操作 时 不 会 出 现 cache 一 致 性 的 问题 。 


全 此 , 我 们 已 经 讨论 了 一 致 性 DMA 映射 的 技术 细节 , 通过 x86 和 ARM 两 种 平台 实现 一 至 
性 DMA 映射 的 代码 分 析 ， 可 以 看 到 ， 一 致 性 映射 最 根本 的 操作 是 获得 一 组 连续 的 物理 页 
用 做 后 续 DMA 操作 的 缓冲 区 。 对 于 x86 平台 而 言 ， 因 为 硬件 保证 了 cache 一 致 性 ， 所 以 
x86 平台 的 一 致 性 映射 最 为 简单 ， 对 于 ARM 平台 而 言 ， 因 为 没有 硬件 参与 解决 cache 一 臻 
性 的 问题 ， 所 以 在 软件 层面 上 ， 通 过 重新 映射 新 获得 的 物理 地 址 空间 ， 在 页 目录 和 页 表 项 
中 关闭 了 这 段 映 射 区 间 上 的 cache4 功 能 ， 所 以 使 得 cache 一 致 性 也 不 再 成 为 问题 。 另 外 ， 
这 种 一 致 性 映射 所 获得 的 DMA 缓冲 区 的 大 小 都 是 页 面 的 整数 倍 ， 如 果 驱 动 程 序 需要 更 小 
的 一 致 性 DMA 缓冲 区 ， 则 应 该 使 用 内 核 提 供 的 DMA 池 (pool) 机 制 ， 稍 后 有 一 节 专 门 讨 
论 DMA 缓冲 池 。 


当 驱 动 模块 不 再 需要 前 面 分 配 出 的 一 致 性 DMA 缓冲 区 时 《比如 对 应 的 模块 从 系统 中 卸载 
时 )， 需 要 使 用 dma free coherent 函数 来 释放 缓冲 区 ， 其 原型 是 : 


void dma_free_coherent(struct device *dev, size_t size, void *vaddr, dma addr t bus) 


4 ARM 还 有 write buffer 的 概念 ， 本 书 一 概 以 cache 统称 了 。 
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其 中 vaddr 表示 要 释放 的 DMA 缓冲 区 的 起 始 虚拟 地 址 , 参数 bus 表示 DMA 缓冲 区 的 总 线 
地 址 。 


对 于 一 致 性 DMA 映射 来 说 ， 因 为 在 分 配 DMA 缓冲 区 时 各 平台 相关 代码 已 经 从 根本 上 解 
wT cache 一 致 性 问题 ， 所 以 驱动 程序 使 用 这 种 映射 来 进行 DMA 操作 时 ， 将 无 须 再 关注 
cache 的 问题 。 实 际 的 驱动 程序 中 , 一 致 性 映射 的 缓冲 区 都 是 由 驱动 程序 自身 在 初始 化 阶段 
分 配 ， 其 生命 周期 可 以 一 直 延 续 到 该 驱动 程序 模块 从 系统 中 移 除 。 但 是 在 某 些 情况 下 ， 一 
致 性 映射 也 会 遇 到 无 法 克服 的 困难 ， 这 主要 是 指 驱动 程序 中 使 用 到 的 DMA 缓冲 区 并 非 由 
驱动 程序 分 配 ， 而 是 来 自 其 他 模块 (典型 的 如 网 络 设 备 驱 动 程序 中 用 于 数据 包 传输 的 
skb->data 所 指向 的 缓冲 区 }， 此 时 需要 使 用 男 一 种 DMA 映射 方式 : 流 式 DMA 映射 。 


O AA DMA 映射 


前 面 在 总 结 一 致 性 DMA BRASS SEE) T io Ep ART RS BR ml, 因此 内 核 同 时 提供 了 另 一 种 DMA 
映射 的 方式 ， 即 流 式 DMA 映射。 这 种 DMA 操作 的 特点 是 ，DMA 传输 通道 所 使 用 的 缓冲 
区 往往 不 是 由 当前 驱动 程序 自身 分 配 的 ， 而 且 往 往 对 每 次 DMA 传输 都 会 重新 建立 一 个 流 
式 映 射 的 缓冲 区 ， 此 外 由 于 无 法 确定 外 部 模块 传 入 的 DMA 缓冲 区 的 映射 情况 ， 所 以 使 用 
流 式 DMA 映射 时 , 设备 驱动 程序 必须 小 心 负责 处 理 可 能 出 现 的 cache 一 致 性 问题 . 在 某 些 
平台 上 ,比如 ARM, CPU 的 读 / 写 用 的 是 不 同 的 cache( 读 是 用 cache, 写 则 是 用 write buffer), 
所 以 建立 流 式 DMA 映射 需要 指明 数据 在 DMA 通道 中 的 流向 , 以 便 由 内 核 决 定 是 操作 cache 
还 是 write buffer. 


Linux 内 核 DMA 层 为 设备 驱动 程序 提供 的 建立 流 式 DMA 映射 的 函数 为 dtma_map_single， 
严格 意义 上 ，dma_map_single 在 内 核 代码 中 的 存在 形式 是 一 个 宏 定义 ; 


<include/asm-generic/dma-mapping-common.h> 


Pe ps Mp i ei ami ee, i We i in pe dh Ee ed bie i MD Te ee i ed de ot a, ee et a I ee i ed ee 


#define dma_map_single(d, a, s, r) dma map single attrs(d, a, s, r, NULL) 


为 了 方便 理解 和 使 用 ， 下 面 给 出 其 等 价 的 函数 原型 


dma addr t dma map single(struct device *dev, void *cpu_addr, 
size t size, enum dma data direction dir); 


函数 中 的 dev 参数 是 一 设备 对 象 的 指针 , cpu addr 是 CPU 的 虚拟 地 址 , 也 是 流 式 映射 DMA 
需要 映射 的 区 域 ， 参 数 size 指明 了 当前 流 式 上 映射 的 空间 范围 ， 参 数 dir 则 用 于 表明 当前 的 
流 式 映 射 中 DMA 传输 通道 中 的 数据 流向 。 函 数 返 回 的 是 dma addr t， 显 然 这 是 个 DMA 
地 址 ， 被 用 来 直接 作为 后 续 的 DMA 操作 中 的 源 地 址 或 者 目的 地 址 ， 具 体 的 数据 流向 在 内 
核 中 由 一 个 朴 举 型 enum dma data direction 表示 ， 该 数据 类 型 定义 如 下 : 


和 


enum dma data direction { 
DMA_BIDIRECTIONAL = 0, 
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DMA TO DEVICE=1, 
DMA FROM DEVICE = 2, 
DMA NONE = 3, 
h 
如 同 建立 一 致 性 映射 的 dma alloc coherent 函数 一 样 ，dma_map single 内 部 用 来 完成 实际 
的 流 式 映射 操作 的 代码 也 是 体系 架构 相关 的 ， 内 核 通过 struct dma map ops 对 象 来 屏 殴 这 
种 平台 的 差异 ， 当 然 具体 的 平台 需要 提供 其 特有 的 struct dma map ops 对 象 来 供 内 核 中 的 
DMA 层 使 用 。 正 如 前 面 所 看 到 的 ,dma map single 宏 被 定义 成 dma map single attrs， 后 
者 是 一 个 实 实在 在 的 函数 : 
Sinclude/asm-genencidma-mapping-common.h> . Mose cR 
static inline dma addr t dma map single attrs(struct device *dev, void *ptr, 
size t size, 
enum dma data direction dir, 
struct dma_attrs *attrs) 


struct dma map ops *ops = get dma ops(dev); 
dma addr t addr; 


addr = ops->map_page(dev, virt to page(ptr), 
(unsigned long)ptr & -PAGE MASK, size, 
dir, attrs); 


eum addr; 

} 
不 出 所 料 ， 国 数 首 先 通过 对 get dma ops 的 调用 来 获得 一 个 指向 struct dma map ops X1 
的 指针 ops, 然后 调用 ops 中 的 map_page 方 法 ,注意 此 处 在 调用 map_page 时 通过 virt_ to. page 
把 要 映射 的 CPU 虚拟 地 址 转化 成 了 对 应 的 物理 页 面 的 struct page 指针 ， 3x 8 AS bL Ae M 4B 
小 的 细节 , 但 是 却 有 几 个 很 关键 的 暗示 , 我 们 不 妨 先 看 看 virt to page 在 内 核 中 的 具体 实现 
再 说 话 : 

<arch/x86/include/asm/page.h> 


FP m 


#define virt to page(kaddr) pfn to page( pa(kaddr) >> PAGE SHIFT) 


SULA fe BASE, AWATA: __pa(kaddr) 中 的 _pa 意味 着 可 以 对 kaddr 地 
址 进行 _pa BRÍE, FAAS Linux 内 存 管理 的 读者 应 该 知道 ， 只 有 内 核 空间 中 的 线性 映射 区 中 
的 地 址 才 可 以 通过 ”pa 和 _va 宏 来 作物 理 地 址 和 虚拟 地 址 的 转换 ， 更 具体 地 ，kmalloe 分 
配 的 虚拟 地 址 可 以 做 _ pa 操作 ，vmalloc 则 不 可 以 。 _pa(kaddr) >> PAGE_SHIFT 将 得 到 的 
物理 地 址 右 移 12 位 (以 x86，32 位 ，4 KB 页 面 大 小 为 例 ) 以 获得 该 物理 页 的 页 帧 号 ， 紧 
接着 pfn to page 将 页 帧 号 转换 成 该 页 对 应 的 struct page 对 象 的 指针 。 调 用 map page 时 构 
造 的 第 三 个 参数 为 (unsigned long)ptr & ~PAGE MASK， 用 来 获得 ptr 所 对 应 地 址 在 物理 页 
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面 中 的 偏 移 量 。 


所 以 ， 如 果 想 通过 dma map single 来 对 某 一 虚拟 地 址 段 作 流 式 映 射 ， 则 必须 保证 传 进来 的 
虚拟 地 址 是 通过 kmalloc 获得 的 。 这 里 虽然 是 以 x86 平台 为 例 ， 但 其 他 平台 的 情况 也 大 致 
如 此 。 


XT ops->map_page 的 调用 , map page 的 实现 已 经 跟 具 体 半 台 紧 密 相 关 了 ,本章 依然 以 x86 
和 ARM 平台 来 探讨 流 式 DMA 映射 的 幕后 机 制 。 


对 于 x86 平台 而 言 ， 它 为 内 核 中 DMA 层 的 dma_map single 准备 的 struct dma_map_ops 对 
3 ^] nommu dma ops5: 


«arch/x86/kernel/pci- nommu.c> 


struct dma map ops nommu_dma ops-[ 


.alloc coherent = dma generic alloc coherent, 
free coherent = nommu free coherent, 

map sg = nommu, map sg, 

map page — nommu map page, 

sync single for device = nommu sync single for device, 
‘Syne sg for device = nommu sync, sg for device, 

Js phys =], 


Hh 


所 以 dma map. single 最 终 建 立 流 式 DMA 映射 的 工作 实际 上 发 生 在 nommu map page 中 ， 
该 函数 的 实现 如 下 : 


<arch/x86/kernel/pci-nommu.c> 


ee ee ee ee ee ee ee re 


static dma_addr t nommu map ; page(struot device *dev, sinit: page “page, 
unsigned long offset, size_t size, 
enum dma data direction dir, 
struct dma attrs *attrs) 


dma addr t bus = page to phys(page) + offset; 

WARN ON(size = 0); 

if (check addr("map single", dev, bus, size)) 
return DMA ERROR, CODE; 

flush write buffers(); 

return bus; 


} 
函数 的 主要 任务 在 bus = page to phys(page) + offset 代码 中 完成 ， 即 获得 流 式 映射 DMA 组 


hate | 


讨论 nommu 这 种 方式 。 


396 RA Linux 设备 驱动 程序 内 核 机 制 


冲 区 的 地 址 ，flush write buffers 在 x86 平台 上 可 以 认为 是 个 空 函 数 。 这 段 调用 中 
ops->map page 中 的 virt to page 和 (unsigned long)ptr & ~PAGE_MASK 参数 的 构造 与 
nommu map page 中 bus = page to phys(page) + offset， 给 人 一 种 元 余 重 复 的 感觉 ， 读 者 或 
许 觉得 干脆 在 dma_map_single_attrs 中 直接 返回 _pa(ptr) 不 就 完了 吗 ， 代 码 这 样 设计 其 实 是 
出 于 可 扩展 性 的 一 种 需要 ， 因 为 不 同 平台 都 需要 有 自己 的 ops->map_page 的 具体 实现 ， 即 
便 是 同一 平台 如 x86, 还 有 IOMMU 5 MMU 的 区 判 ， 押 以 为 了 map page 的 更 大 范围 的 可 
适应 性 ， 我 们 便 看 到 了 目前 ops->map_page 方法 中 参数 的 构造 方式 。 


对 于 ARM 平台 而 言 ，dma map single 国 数 的 实现 代码 为 : 


_<arch/arm/include/asm/dma-mapping.h> | 
static inline dma addr t dma map single(struct device *dev, void "cpu. addr, 


size tsize, enum dma data direction dir) 


i 


__dma_single cpu_to_dew(cpu_addr, size, dir), 
return virt to dma(dev, cpu_addr); 


} 


ER AY 22 Se RES E a ES cpu_addr 表示 的 一 段 虚 拟 地 址 映射 到 DMA 缓冲 区 中 ， 该 缓冲 区 的 
起 始 地 第 将 作为 函数 返回 值 返回 。 醒 数 的 核心 是 在 “dma single cpu to dev 里 面 : 


«arch/arm/mm/dma- -mapping. c> 
void — dma single cpu to dev(const void * kaddr, size "dios, 
enum dma data direction dir) 


unsigned long paddr; 
dmac map area(kaddr, size, dir); 
paddr = — pa(kaddr); 
if (dir = DMA FROM DEVICE) | 
outer inv range(paddr, paddr + size), 
} else { 
o&ter clean range(paddr, paddr + size); 
j 
; 


如 果 dir == DMA FROM DEVICE, z&zs DMA 通道 中 数据 的 流向 是 从 设备 到 主 存 ， 此 时 
从 CPU 角度 要 完成 的 任务 是 从 RAM 中 读 取 来 自 设备 的 数据 ， 因 为 ARM 没有 硬件 来 解决 
cache 一 致 性 的 问题 ， 所 以 这 种 情况 下 需要 通过 软件 来 使 得 [paddrpaddr+size] 范 围 所 对 应 的 
cache 和 失效， 这样 CPU 将 从 主 存 中 获得 数据 而 不 会 读 到 cache 中 的 数据 。 上 面 的 代码 中 
outer inv range 了 半数 用 来 完成 这 一 任务 , 通常 这 是 用 ARM 的 汇编 语言 写成 的 代码 , 用 来 使 
ARM 的 cache 失效 。 


如 果 dir 是 DMA FROM DEVICE 之 外 的 参数 ,主要 是 针对 DMA TO DEVICE 这 种 情况 ， 
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.此 时 DMA 传输 通道 中 的 数据 流向 是 从 主 存 到 设备 ， 因 此 要 确保 CPU 往 主 存 RAM PSA 
的 数据 不 会 只 写 到 cache 中 ， 也 就 是 要 求 cache 具有 write-through 的 特性 ， 上 述 代码 中 的 
outer clean range 用 来 完成 这 一 任务 。 


通过 以 上 对 一 致 性 DMA 映射 与 流 式 DMA 映射 的 分 析 ， 可 以 看 到 ， 当 驱动 程序 主动 去 分 
配 一 个 DMA 缓冲 区 并 且 该 缓冲 区 的 存在 周期 与 所 在 的 驱动 模块 一 样 长 时 ， 就 是 用 -~ 致 性 
DMA 映射 的 好 时 机 , 这 种 映射 类 型 的 缓冲 区 因为 在 驱动 程序 一 开始 为 DMA 操作 分 配 缓冲 
区 时 就 解决 了 cache 一 致 性 问题 , 所 以 后 续 的 DMA 相关 操作 将 无 须 再 考虑 这 一 问题 。 如 果 
驱动 程序 需要 使 用 从 别 的 模块 传 进 来 的 地 址 空间 作为 DMA 缓冲 区 ， 那 么 就 需要 考虑 使 用 
流 式 DMA 映射 ， 这 种 映射 对 传 进来 的 虚拟 地 址 空间 的 要 求 是 ， 它 必须 位 于 内 核 空 间 的 线 
性 映射 区 中 ,驱动 程序 在 这 种 情况 下 的 处 理 主要 是 确保 每 次 DMA 操作 前 后 cache 的 一 致 性 
问题 ， 因 为 x86 由 硬件 保证 了 cache 的 一 致 性 ， 所 以 x86 平台 的 流 式 映 射 只 是 简单 地 将 虚 
所 地 址 对 应 的 物理 地 址 返回 给 驱动 程序 作为 DMA 缓冲 区 , 而 对 ARM 平台 而 言 , 则 要 保证 
虚拟 地 址 和 物理 地 址 上 映射 时 去 闭 cache 的 功能 。 


所 以 建立 流 式 DMA 映射 的 关键 点 有 两 个 ; 一 是 确保 CPU 侧 的 虚拟 地 址 所 对 应 的 物理 地 址 
能 够 被 设备 DMA 正确 访问 : 二 是 要 确保 cache 一 致 性 的 问题 。 


对 于 第 一 点 ， 如 果 CPU 侧 的 虚拟 地 址 对 应 的 物理 地 址 不 适合 用 来 做 DMA 传输 ， 那 么 有 可 
能 需要 使 用 所 谓 回 弹 缓 冲 区 bounce buffer) 的 概念 ， 稍 后 会 讨论 。 


对 于 第 二 点 ，x86 平台 上 的 驱动 程序 无 顷 做 什么 事情 ， 而 ARM 就 比较 特殊 。 出 于 代码 可 移 
植 性 的 考虑 ， 即 便 是 为 x86 平台 写 驱 动 ， 也 最 好 调用 内 核 DMA 层 提 供 的 接口 来 做 cache 
一 致 性 的 操作 。struct dma map ops 对 象 中 的 sync. single for cpu. sync single for device, 
sync sg for cpu 和 sync sg for device 方法 就 是 用 来 处 理 cache 一 致 性 的 问题 , 这 些 函 数 在 
x86 平台 不 做 什么 事情 , 但 是 ARM 平台 就 不 一 样 了 。 为 了 让 读者 增加 直观 印象 ， 这 里 我 们 
对 ARM 平台 上 的 相关 操作 简单 介绍 一 下 : 


sync single for cpu 方法 用 于 数据 从 设备 传 到 主 存 这 种 情况 ， 4 DMA SERN, 设备 已 经 将 
数据 放 到 了 位 于 主 存 的 缓冲 区 中 ，CPU WERZA. A TH cache 的 介入 导致 CPU 
读 到 的 只 是 cache 中 的 老 数 据 ， 驱 动 程序 需要 在 CPU 读 取 之 前 调用 该 函数 。 函 数 在 ARM 
平台 上 的 操作 是 一 个 “invalidate”， 也 就 是 使 cache 无 效 ， 这 样 处 理 器 将 直接 从 主 存 获得 数 
fho 


sync single for device 方法 用 于 数据 从 主 存 传 到 设备 这 种 情况 : 在 启动 DMA 操作 前 ，CPU 
需要 将 数据 放 到 位 于 主 存 的 DMA 缓冲 区 中 ， 为 了 防止 write buffer 的 介入 ， 导 致 数据 只 
临时 写 到 write buffer t, 驱动 程序 需要 在 CPU 往 主 存 写 数据 之 后 启动 DMA 操作 之 前 调用 
该 函数 。 函 数 在 ARM 平台 上 的 操作 是 一 个 “flushyclean”， 也 就 是 把 write buffer 中 的 数据 
冲 到 主 存 中 ， 这 样 后 续 的 DMA 操作 才 会 把 正确 的 数据 传 给 设备 。 
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O 分 散 /聚集 映射 【scattergather map ) 

到 目前 为 止 ， 对 DMA 操作 时 缓冲 区 的 映射 问题 的 讨论 还 仅 限 于 单个 缓冲 区 ， 本 节 将 讨论 
男 一 种 类 型 的 DMA 映射 一 一 分 散 /聚集 映射 。 

正如 其 名 称 所 暗示 的 那样 ， 分 散 / 聚 集 映 射 通过 将 虚拟 地 址 上 分 散 的 DMA 缓冲 区 通过 一 个 
类 型 为 struct scatterlist 的 数组 或 者 链表 组 织 起 来 ， 然 后 通过 一 次 的 DMA 传输 操作 在 主 存 
RAM 与 设备 之 间 传 输 数 据 ， 如 图 10-9 所 示 : 


i 






4— : = DMA 
ENS oo 


图 10-9 ”分 散 聚 集 DMA 映射 


图 中 显示 了 主 存 中 三 个 分 散 的 物理 页 面 与 设备 之 间 进 行 的 一 次 DMA Sig 4) BU Ee 
示意 ， 其 中 单个 物理 页 面 与 设备 之 间 可 以 看 做 是 一 个 单一 的 流 式 映 射 ， 每 个 这 样 的 单一 映 
射 在 内 核 中 有 数据 结构 struct scatterlist 来 表示 : 


-w x mE ok mom om om Gà db Box on JW E e) ee 9o pomum og i Sad i au i a eh i et dm VU i Ve i nd GS TE TE ee i A 


struct scatterlist { 
unsigned long ^ page link; 
unsigned intoffset; 
unsigned intlength; 
dma addr tdma address; 
fifdef CONFIG NEED SG DMA LENGTH 
unsigned intdma length; 
#endif 
s 
WRA CPU 的 角度 看 这 种 分 散 /聚集 映射 ， 它 对 应 的 需求 是 有 三 块 数据 〈 分 别 存放 在 三 段 
分 散 的 虚拟 地 址 空间 中 ) 需要 和 设备 进行 交互 《发送 或 者 接收 )， 通 过 建立 struct scatterlist 
类 型 的 数组 /链表 在 一 次 DMA 传输 中 完成 所 有 的 数据 传递 。 


在 struct scatterlist 结构 体 中 ，page_link 指明 了 虚拟 地 址 所 对 应 的 物理 页 面 struct page WR 
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的 地 址 《因为 地 址 的 最 低 两 位 总 是 0， 所 以 内 核 在 page. link 的 后 两 位 中 安插 了 一 些 其 他 信 
EK. Plan: 如果 最 低 两 位 是 01， 表 示 当 前 对 和 象 的 page link 将 会 是 指向 下 一 个 scatterlist 数 
组 的 首 地 址 , 此 时 形成 scatterlist 的 链 式 结构 ; 如 果 最 低 两 位 是 10, 表 明 当 前 对 象 是 scatterlist 
数组 中 的 最 后 一 个 )， 比 如 下 面 的 代码 ; 


/sg 是 struct scatterlist 类 型 指针 
struct page *spage =( struct page *) (sg->page_link & ~0x03); 


offset 是 数据 在 DMA 缓冲 区 中 的 偏 移 地 址 ，length 是 要 传输 的 数据 块 的 大 小 ，dma address 
则 是 设备 DMA 操作 要 使 用 的 DMA 地 址 (物理 地 址 )。 


内 核 中 的 DMA 层 为 分 散 / 聚 集 映 射 所 提供 的 接口 函数 为 dma_map_sg， 其 原型 为 ; 


int dma map sgístruct device *dev, struct scatterlist *sg, 
int nents, enum dma data direction dir), 


参数 dev 是 设备 对 象 的 指针 ，sg 是 struct scatterlist 类 型 数组 的 首 地 址 ，nents 表示 当前 的 分 
散 / 诊 集 映射 中 单一 流 式 映射 的 个 数 ， 也 是 struct scatterlist 数组 /链表 中 的 元 素 个 数 ，dir 用 
于 指明 DMA 传输 中 数据 流 的 方向 。 


接 下 来 分 别 以 x86 和 ARM 平台 来 讨论 dma map sg 建立 分 散 / 事 集 映射 的 内 核 机 制 。 


首先 是 x86 平台 ， 该 平台 的 .dma_map_sg 通过 struct dma_map_ops 对 象 来 调用 其 map. sg 7j 
法 ， 此 处 依然 选择 以 nommu dma ops 对 象 为 例 ， 其 map sg 方法 的 函数 实现 为 ; 
<arcn/x86ikerneypcrnommuc> 
static int nommu_map_sg(struct device *hwdev, struct scatterlist *sg, 
int nents, enum dma_data_direction dir, 
struct dma_attrs *attrs) 


struct scatterlist *s; 
int i; 


WARN ON(nents == 0 || sg[0].length == 0); 
for each sgí(sg, s, nents, i) { 
BUG ON(!sg page(s); 
s->dma_ address sg phys(s); 
if (check addr("map sg", hwdev, s-7dma address, s->length)) 
return 0; 
s->dma_ length = s->length; 
} 
flush_write_buffers(); 
return nents; 


} 
函数 的 主体 通过 for_each_sg 遍历 sg 数组 /链表 的 所 有 元 素 ， 对 于 每 个 元 素 ， 都 执行 一 个 流 式 
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映射 ， 对 于 x86 而 言 ， 如 果 没 有 IOMMU 的 介入 ， 设 备 的 DMA 操作 时 使 用 的 DMA 地 址 就 
是 物理 地 址 ， 因 此 只 需 通过 sg phys 获得 当前 元 素 所 对 应 的 物理 地 址 即 可 ， 其 代码 如 下 : 


i 
return page to phys(sg page(sg)) + sg->offset; 
| 


sg page 通过 scatterlist 34 $ sg 的 page link 成 员 取 得 所 对 应 的 物理 页 面 的 struct page 对 象 地 
HE: 


static inline struct page *sg_page(struct scatterlist *sg) 


{ 


return (struct page *}((sg)->page_link & ~0x3), 
} 


sg phys 再 将 返回 的 struct page 指针 通过 page to phys 获得 页 面 的 起 始 物理 地 址 , 加 上 实际 
数据 块 在 页 面 中 的 偏 称 值 sg->o 全 et， 就 获得 了 本 次 DMA 操作 的 DMA 地 址 。 
ARM 平台 的 dma map sg 的 实现 为 : 
«arciVamm/mm/dmae mapping.c? — — — — — sss 
int dma map sg(struct device *dev, struct scatterlist *sg, int nents, 
enum dma data direction dir) 


{ 


for_each_sg(sg, s, nents, i) | 
s->dma_address = dma map page(dev, sg. page(s), s->offset, 
s->length, dir); 
if (dma mapping error(dev, s->dma_address)) 
goto bad mapping; 
} 


return nents; 


bad mapping: 
for each sgí(sg, S, i, ]) 
dma unmap page(dev, sg dma address(s), sg dma len(s), dir); 
return 0); 


I 


函数 通过 dma map page 来 映射 scatterlist 上 的 page link, ZR x86 平台 不 一 样 的 是 ，ARM 
架构 需要 通过 软件 来 保证 cache 一 致 性 问题 ,所 以 做 完 这 种 虚拟 物理 地 址 的 转换 之 后 , ARM 
需要 做 的 是 使 映射 区 对 应 的 cache 无 效 , 以 保证 设备 通过 DMA 将 数据 放 到 主 存 之 后 , CPU 
读 到 的 不 是 cache 中 的 数据 ， 或 者 是 保证 CPU 写 到 RAM 中 的 数据 立刻 反映 到 RAM P, 
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而 不 是 暂时 缓存 到 cache H, 这 样 后 续 DMA 在 把 主 存 中 的 数据 传 到 设备 中 时 , 才能 确保 数 
据 的 有 效 性 。 


通过 上 面 的 讨论 可 以 看 到 ， 分 散 /聚集 DMA 映射 本 质 上 是 通过 一 次 DMA 操作 把 主 存 中 分 
散 的 数据 块 在 主 存 与 设备 之 疗 进 行 传输 ， 对 于 其 中 的 每 个 数据 块 内 核 都 会 建立 对 应 的 一 -个 
流 式 DMA BRAT. Fob, AERE DMA BRAT He SE AE. MOAN See A AK 
程序 决定 。 


10.3.5 ” 回 弹 缓冲 区 ( bounce buffer ) 


如 果 CPU 侧 虚 拟 地 址 对 应 的 物理 地 址 不 适合 设备 的 DMA 操作， 那么 需要 建立 所 谓 的 回 弹 
缓 神 区 ， 筷 相当 于 一 个 中 转 站 的 作用 ， 在 把 数据 往 设 备 方 回 传输 时 ， 驱 动 程 序 需 要 把 CPU 
给 的 数据 拷贝 到 回 弹 缓冲 区 ， 然 后 再 启动 DMA 操作 ， 反 之 亦 然 。 所 以 回 弹 组 冲 区 必然 是 
可 以 直接 与 设备 进行 DMA 传输 的 ， 当 传输 结束 时 ， 再 通过 CPU 的 介入 把 回 弹 缓冲 区 中 的 
数据 搬移 到 最 终 的 目标 ， 所 以 除非 外 部 传 入 的 地 址 不 能 进行 DMA 传输 ， 否 则 不 应 当 使 用 
它 。 图 10-10 展示 了 一 个 回 弹 缓 神 区 的 使 用 ; 





: .DMA 通道 
[ | ] mae 


图 10-10 [n] 9 EXE p€ f FR CER 


10.3.6 DMA 池 


前 面 在 讨论 一 致 性 DMA 了 映射 时 ， 知 道 这 种 DMA 映射 所 建立 的 缓冲 区 大 小 是 单个 页 面 的 
整数 倍 ， 如 果 驱 动 程序 需要 更 小 的 一 致 性 映射 的 DMA 缓冲 区 ， 可 以 使 用 内 核 提 供 的 DMA 
池 机 制 | 。 


DMA 池 机 制 非 常 类 似 于 Linux 内 存 管 理 中 的 slab 机 制 , 它 的 实现 建立 在 一 致 性 DMA 映射 
所 获得 的 连续 物理 页 面 的 基础 之 上 ， 通 过 DMA 池 的 接口 函数 在 物理 页 面 之 上 分 配 所谓 块 
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大 小 的 DMA 缓冲 区 , 为 方便 叙述 , 本 书 称 这 样 的 块 为 DMA 缓冲 块 , 以 区 别 于 一 致 性 DMA 
映射 中 页 面 级 大 小 的 缓冲 区 。 显 然 为 了 管理 跟踪 物理 页 面 中 DMA 缓冲 块 的 分 配 和 余下 空 
闲 空间 的 多 少 ， 内 核 需要 引入 对 应 的 管理 数据 结构 ，struct dma_pool 就 是 内 核 用 来 完成 该 
任务 的 数据 结构 ， 其 定义 如 下 : 


<mm/dmapool.c> 


struct dma pool { 
struct list head page list; 
spinlock t lock; 
size t size; 
struct device *dev; 
size t allocation; 
size t boundary; 
char name[32]; 
walt queue head t waitq; 
struct list head pools; 
hs 


些 成 员 的 作用 如 下 : 
struct list head page list 
用 来 将 一 致 性 DMA 映射 建立 的 页 面 组 织 成 链表 。 
size_t size 
该 DMA 池 用 来 分 配 一 致 性 DMA 映射 的 缓冲 区 的 大 小 ， 也 称 块 大 小 。 
struct device *dev 
进行 DMA 操作 的 设备 对 象 指针 。 
char name[32] 
DMA 池 的 名 称 ， 主 要 在 调试 或 者 诊断 时 使 用 。 
struct list_head pools 
用 来 将 当前 DMA 池 对 象 加 到 dev->dma_pools 链表 中 。 


在 利用 DMA 池 进 行 缓冲 区 分 配 之 前 ， 首 先 需 要 创建 一 个 DMA 池 ， 这 是 通过 函数 
dma pool create 来 完成 的 ， 该 图 数 的 核心 实现 为 : 


«mm/dmapool.c- 


size tsize,size talign, size t boundary) 


( 
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struct dma pool *retval; 
size t allocation; 


allocation = max t(size t, size, PAGE SIZE); 


if (boundary) { 
boundary = allocation; 

} else if ((boundary < size) || (boundary & (boundary - 1))) { 
return NULL; 

j 


retval = kmalloc node(sizeof(*retval), GFP KERNEL, dev to node(devy); 
if (retval) 
return retval; 


stricpy(retval->name, name, sizeof(retval->name)); 
retval->dev = dev; 


INIT LIST HEAD(&retval-7page list); 
spin lock init(&retval-^lock); 
retval->size = size; 

retval->boundary = boundary; 
retval->allocation = allocation: 
init_waitqueue_head(&retval->waitq), 


list_add(&retval->pools, &dev->dma_pools); 


} 


图 数 的 核心 工作 就 是 分 配 一 个 struct dma_pool 对 象 并 初始 化 。 不 过 有 些 细节 还 是 值得 探讨 
一 下 , 先 看 函数 的 参数 ,name 用 于 指定 即将 创建 的 DMA 池 的 名 称 , size 用 于 指定 在 该 DMA 
池 中 分 配 缓冲 鼎 的 大 小 ，align 用 于 指定 当前 DMA 池 分 配 操作 所 遵守 的 对 齐 方式 。 


函数 首先 确定 当前 DMA 池 分 配 的 对 齐 指标 ， 我 们 对 此 不 感 兴趣 。 接 下 来 allocation 用 来 保 
FER size 与 PAGE SIZE 之 间 的 最 大 值 , 所 以 如 果 size 小 于 一 个 页 面 大 小 的 话 , allocation 
将 等 于 PAGE_SIZE， 在 后 续 的 DMA 池 的 页 面 分 配 部 分 ， 该 值 用 来 决定 需要 分 配 的 连续 物 
FETA Rat. MR PE AAT Ye ATR boundary (boundary HF), MWA boundary 就 是 
allocation 的 大 小 。kmalloc_node 函数 用 来 分 配 一 个 struct dma pool 对 象 ， 紧 接着 就 是 对 该 
对 象 进行 初始 化 。 


以 上 是 dma_pool_create 函数 总 体 框架 ,现在 我 们 有 了 一 个 已 经 被 初始 化 过 的 DMA 池 对 象 ， 
如 朱 要 在 该 对 象 中 分 配 一 个 一 致 性 映射 的 DMA 缓冲 区 块 ， 应 该 使 用 dma pool alloc 函数 ; 


_ «mm/dmapool.c» 


=. m Gm Gr GE UR JE eo mom cm e EO b de Le mon GR "ls OD CHE GE "Romo 


272-5---- 33m & mm a E a 


void *dma pooi alioc(struct dma pool *pool, pfp t mem flags, 


—— — e a a a 
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dma addr t *handle) 


unsigned long flags; 
struct dma page *page; 
size t offset; 

void *retval; 


spin lock irqsave(&pool-^lock, flags); 
restart: 
list for each entry(page, &pool-^page list, page list) { 
if (page->offset « pool->allocation) 
goto ready; 
} 
page = pool alloc page(pool, GFP ATOMIC); 
if (!page) { 
if(mem flags & GFP WAIT) { 
DECLARE WAITQUEUEX(wait, current); 
. set current state(TASK INTERRUPTIBLE); 
. add wait queue(&pool-^waitg, &wait); 
spin unlock irgrestore(&pool-»lock, flags); 
schedule timeout(POOL TIMEOUT JIFFIES); 
spin lock irgsave(&pool--lock, flags); 
. remove wait queue(&pool-^waitq, &wait); 
goto restart; 
} 
retval = NULL; 
goto done; 


ready: 
page->in_use++; 
offset = page->offset; 
page->offset = *(int *)(page->vaddr + offset); 
retval = offset + page->vaddr; 
*handle = offset + page->dma; 


spin unlock irqrestore(&pool->lock, flags); 
return retval; 
j 


这 个 函数 的 主线 框架 是 ， 如 果 当 前 DMA 池 中 有 页 面 满足 接 下 来 的 缓冲 块 分 配 需求 ， 那 么 


就 在 该 页 面 上 分 配 ， 理 则 通过 调用 pool alloc page 来 重新 分 配 一 段 连续 物理 页 。DMA 池 
中 每 段 这 样 的 页 面 都 用 一 个 struct dma page 类 型 的 对 象 来 表示 ; 


«mm/dmapool.c- 


eS m mom o. m mmo m om oco oom pom oc c coc oin mom Gm Mom omn Gn Re UR e dO G& mom cL cL cR cs dA c o c BP — — oom o - W Gà GE LOCO h cL — 0 0 dL db ob 4E o — —— — — Lo -& am orm mori om- 3 Coo We Am Om a OR moms 


struct dma page { 
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struct list head page list; 

void *vaddr; 

dma addr t dma; 

unsigned int in use; 

unsigned int offset; 

h 

dma pool alloc 函数 返回 DMA 池 中 某 一 段 物 理 页 面 中 空闲 块 的 虚拟 地 址 ， 其 对 应 的 DMA 
地 址 由 参数 handle 返回 。 如 果 调 用 dma_pool_alloc 函数 时 在 mem flags 中 指定 了 
_GFP_WAIT 标志 ， 那 么 在 系统 中 暂时 没有 一 段 连续 的 物理 页 面 满足 分 配 需求 时 ， 函 数 会 
进入 睡眠 等 待 状态 ， 等 POOL TIMEOUT JIFFIES 指定 的 时 间 到 期 ， 或 者 前 面 的 分 配 请 求 
可 以 被 满足 (比如 有 模块 调用 了 dma pool free 来 释放 当前 DMA 池 中 的 某 一 DMA 缓冲 块 )， 
该 函数 才 会 从 睡眠 等 待 状态 中 醒 来 。 | 


与 dma pool alloc 相对 应 ， 如 果 要 从 一 个 DMA 池 中 释放 某 一 DMA 缓冲 块 ， 则 应 该 调用 
dma pool free 函数 ， 该 图 数 怕 型 为 ， 


.*include/linux/dmapool. h> 
void dma pool free(struct dma | pool *pool, void * vaddr, dma addr_ t addr); 


参数 pool H TIRRENIA] DMA 缓冲 块 隶属 的 DMA W, vaddr 是 要 释放 的 DMA Ze yp ik 
的 虚拟 地 址 ，addr 则 是 其 DMA 地 址 。 


如 果 一 个 DMA 池 不 再 使 用 ， 应 该 调用 函数 dma pool destroy 销毁 之 ， 该 函数 的 原型 为 ; 


*include/linux/dmapool. h> 


void dma_pool_ destroy(struct dma *pool); 


参数 pool 是 指向 要 销毁 的 DMA HMRI. ER CURL a S DUE VALE VA ERI ELI] DMA 
池 中 已 经 没有 DMA 缓冲 块 还 在 使 用 ， 而 且 一 旦 DMA 池 对 象 被 销毁 ， 后 续 将 没有 横 块 试 
图 再 去 使 用 它 。 


10.4 ” 本章 小 结 


本 章 主要 讨论 了 两 个 话题 ， 一 个 是 如 何 将 用 户 空间 的 地 址 映射 到 设备 内 存 中 ， 将 用 户 空 间 
的 地 址 直接 映射 到 设备 地 址 上 可 以 使 得 应 用 程序 直接 使 用 设备 内 存 ， 因 为 绕 过 了 内 核 部 分 
的 介入 ， 使 得 程序 的 性 能 得 以 提高 。 


另 一 个 话 顾 与 DMA 操作 相关 ， 主要 集中 在 如 何 为 一 个 DMA 传输 建立 DMA 缓冲 区 ,所谓 
缓冲 区 的 建立 , 主要 是 在 系统 的 主 存 中 为 DMA 操作 分 配 一 段 内 存 区 域 , 因为 cache 的 存在 
使 得 原本 单纯 的 任务 变 得 有 些 不 那么 坦荡 ， 而 且 还 应 该 注意 并 不 是 主 存 中 所 有 的 区 域 都 适 
合 DMA 传输 。 内 核 为 方便 设备 驱动 程序 的 使 用 ， 提 供 了 一 个 通用 的 DMA 层 来 统一 DMA 
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操作 缓冲 区 建立 等 操作 。 内 核 中 关于 DMA 组 种 区 的 建立 主要 有 三 种 方式 。 一 是 一 致 性 DMA 
映射 ， 这 种 映射 的 主要 操作 是 在 主 存 中 分 配 一 段 连续 的 物理 页 面 作为 后 续 DMA 操作 的 组 
冲 区 ， 对 于 那些 疫 有 和 硬件 保证 cache 一 致 性 的 平台 ,必须 由 软件 来 保证 cache 一 致 性 ， 主 要 
的 原理 是 将 新 分 配 的 DMA 缓冲 区 所 对 应 范围 内 的 cache 等 特性 关闭 。 因为 一 致 性 DMA BR 
射 在 建立 之 初 就 解决 了 cache 一致 性 问题 ,所 以 后 续 的 DMA 操作 就 无 须 再 关心 这 个 问题 了 。 
二 是 流 式 DMA 映射 ， 基 本 上 这 种 映射 的 缓冲 区 都 不 是 驱动 程序 自身 所 分 配 ， 因 此 驱动 程 
序 对 于 这 种 映射 要 完成 的 任务 主要 是 确保 外 部 传 入 的 缓冲 区 的 虚拟 地 址 映射 的 物理 地 址 范 
围 可 以 进行 DMA 操作 ， 然 后 将 这 些 虚 拟 地 址 转化 成 物理 地 址 作为 后 续 DMA 操作 的 缓冲 
区 。 因 为 驱动 程序 在 此 只 是 简单 地 做 虚拟 地 址 到 DMA 地 址 的 转换 工作 ， 所 以 后 续 的 每 次 
DMA 操作 时 都 需要 小 心 采取 措施 解决 cache 一 致 性 的 问题 (如果 那 种 平台 没有 在 硬件 上 保 
证 cache 一 致 性 的 话 )。 


如 果 有 更 小 的 DMA 一 致 性 缓冲 区 分 配 需求 (比如 小 于 一 个 物理 页 面 )， 可 以 使 用 内 核 提 供 
的 DMA 池 机 制 |。 


#11 « 
块 设备 驱动 程序 


在 Linux 的 设备 驱动 架构 中 ， 块 设备 是 与 字符 型 设备 不 同类 型 的 另 一 种 设备 ， 因 此 内 核 在 
支持 块 设备 驱动 程序 时 所 使 用 的 相关 数据 结构 和 IO 模型 的 设计 等 方面 都 与 字符 型 设备 驱 
动 程序 有 所 不 同 。 相 对 于 字符 型 设备 ，Linux 内 核对 块 设备 的 支持 要 复杂 得 多 ， 基 本 上 要 
牵涉 到 内 核 组 件 的 很 多 方面 。 再 者 因为 主要 是 内 核 的 文件 系统 在 与 块 设备 驱动 程序 打交道 ， 
所 以 在 对 块 设备 所 提供 接口 的 调用 关系 上 ， 块 设备 相对 于 字符 设备 驱动 程序 而 言 ， 也 要 临 
涩 很 多 。 不 过 幸运 的 是 ， 对 设备 驱动 程序 而 言 ， 我 们 不 需要 了 解 这 其 中 的 每 个 技术 细节 。 
在 本 章 的 讨论 中 ， 我 们 致力 于 勾勒 出 块 设备 相关 的 整体 框架 ， 这 样 读者 将 会 对 Linux 下 与 
块 (Block) 相关 的 部 分 有 个 总 体 的 认识 ， 在 此 基础 上 我 们 会 将 更 多 的 笔墨 放 在 与 设备 驱动 
息息相关 的 那些 部 分 。 


本 章 的 结构 总 体 上 可 以 分 成 三 部 分 : 第 一 部 分 讨论 块 设 备 与 系统 的 交互 ， 即 块 设备 如 何 被 
注册 进 系 统 ， 以 及 块 设备 在 系统 中 的 存在 形式 等 ， 第 二 部 分 将 从 块 设备 驱动 程序 的 角度 出 
发 ， 探 讨 块 设备 驱动 程序 的 整体 框架 ， 包 括 各 种 外 部 接口 函数 的 讨论 等 ， 第 三 部 分 将 讨论 
块 设备 如 何 完成 其 真正 的 功能 一 一 让 其 所 控制 的 设备 完成 上 层 的 IO 请 求 ， 这 部 分 的 重点 
是 块 设备 的 请 求 队列 ， 在 此 基础 上 将 讨论 一 个 块 设备 如 何在 现 有 的 请 求 队列 上 实现 自己 的 
请 求 函 数 ， 通 过 这 些 讨 论 ， 读 者 将 会 明白 块 设备 驱动 程序 中 与 请 求 队列 相关 的 函数 被 调用 
时 的 上 下 文 背景 与 磊 后 细节 。 在 所 有 这 些 技术 细节 展开 之 六 ， 我 们 会 通过 一 个 RAM DISK 
的 实例 来 展示 块 设备 驱动 程序 编写 的 若干 要 素 ， 读 者 可 以 亲自 在 自己 的 机 器 上 编译 、 运 行 
与 操作 这 个 基于 系统 RAM 模拟 出 来 的 磁盘 ， 我 希望 通过 这 个 具体 的 例子 让 读者 建 芯 起 探 
索 块 设备 驱动 程序 背后 神秘 内 幕 的 好 奇 心 。 


在 讨论 开始 前 ， 我 先 给 出 一 张 Linux 系统 下 块 相关 组 件 的 框 染 图 (图 11-1)， 以 便 读 者 能 在 
进入 后 续 的 具体 讨论 前 先 建立 个 全 局 性 的 印象 。 图 中 ,最 上 层 是 Linux 内 核 的 文件 系统 组 
件 ， 主 要 是 磁盘 文件 系统 ， 间 时 也 包括 块 设备 文件 等 。 接 下 来 是 一 个 通用 的 块 层 ， 用 来 完 
成 块 设备 的 相关 核心 功能 ， 在 通用 的 块 层 之 下 是 VO 调度 器 组 件 ， 主 要 用 来 对 块 设备 请 求 
队列 中 的 请 求 进行 调度 ， 以 最 大 程度 优化 硬件 操作 的 性 能 《比如 LO 调度 器 可 能 会 对 请 求 
队列 中 的 某 些 请 求 进行 合并 或 者 调整 各 请 求 间 的 顺序 ， 以 尽 可 能 减少 磁盘 磁头 移动 的 距 
EO. VO 调度 器 之 下 是 本 章 要 讨论 的 主角 一 一 块 设备 驱动 程序 ， 它 控制 对 应 的 便 件 设备 以 
完成 来 自 上 层 的 VO 请 求 等 操作 。 为 了 叙述 方便 ， 笔 者 将 Linux 内 核 中 所 有 与 块 相关 的 组 
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件 统称 为 块 子 系统 。 





CD - C! 
E i 


图 11-1 Linux 块 设 备 相 关 组 件 框架 图 


11.1 块 子 系统 初始 化 


该 子 系统 的 初始 化 发 生 在 genhd_device int 函数 中 ， 该 函数 的 实现 代码 为 ; 


<block/genhd.c> 


Nn om cm om om ov nog vog o. 4 doo 2L oc oL Lo eoo mo 4 o0 5 0 09 5 m om om rom om os ox 


static int init genhd dev ice init(void) 


{ 
int error; 
block_class.dev_kobj = sysfs dev block kobj; 
error = class register(&block class); 
if (unlikely(error)) 
return error, 
bdev map = kobj map init(base probe, &block class lock); 
blk dev init(); 
register blkdev(BLOCK EXT MAJOR, "blkext"); 
return 0; 
} 


XX ^" ER BUTE Fa St ea ST H 函数 前 面 的 _init 标志 也 证 实 了 这 一 点 。 函数 首先 为 内 
核对 象 block_class 指定 其 kobject 类 型 成 员 dev. kobj 的 所 属 ,block class 是 个 全 局 型 的 struct 
class 对 象 。 这 里 为 block class 中 的 dev_kobj 所 指定 的 sysfs dev block kobj 是 个 kobject 
类 型 的 指针 ， 该 指针 的 生成 发 生 在 devices init: 
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<drivers/base/core.c> 
int init devices init(void) 
{ 


dev_kobj = kobject_create_and_add("dev", NULL); 
if (!dev kobj) 
goto dev kobj err; 
sysfs dev block kobj = kobject create and add("block", dev kobj); 


j 


所 以 如 果 单 从 sysfs 文件 系统 的 角度 出 发 ,block class.dev kobj = sysfs dev block kobj 将 使 
block class 指 加 /dewblock 这 个 目录 ， 此 处 读者 留意 下 这 个 细节 ， 在 后 续 相 关 的 讨论 中 或 许 
会 用 的 着 。class_register 将 block class 这 个 类 对 象 注 册 进 系统 ， 相 关 细 节 已 在 “Linux 设备 
驱动 模型 ”一 章 讨论 过 。 


bdev map 是 一 个 类 型 为 struct kobj_map 的 全 局 指针 型 变量 , kobj map init 函数 用 来 给 它 动 
态 分 配 一 个 struct kobj map 类 型 对 象 ， 这 里 的 操作 原理 以 及 系统 对 bdev map 如何 使 用 ， 
读者 不 妨 再 回头 看 看 2.5 节 “ 字 符 设备 的 注册 ” 块 设 备 与 字符 设备 在 对 struct kobj map 变 
量 的 使 用 上 是 相同 的 。 | 


接 下 来 的 blk dev init 主要 是 创建 一 个 名 为 “kblockd” 的 工作 队列 和 两 个 kmem_cache 缓冲 
池 ， 具 体 代 码 为 : 


<block/blk-core.c> 
are eee Toc "rc" 
{ 
kblockd workqueue = create workqueue("kblockd"); 
if (!kblockd_workqueue) 
panic("Failed to create kblockd\n"); 


request cachep = kmem cache create("blkdev requests", 
sizeof(struct request), 0, SLAB PANIC, NULL); 


blk requestq cachep = kmem cache create("blkdev queue", 
sizeof(struct request queue), 0, SLAB PANIC, NULL); 


return 0); 


} 


这 里 用 到 了 “分 配 内 存 ” 和 “延迟 操作 ”两 章 中 讨论 过 的 内 容 ， 此 处 不 应 该 有 什么 难以 理 
解 的 地 方 。 在 Linux 系统 下 可 以 通过 ps 命令 看 到 这 里 创建 的 kblockd 工作 队列 ， 大致 如 下 : 


[root@AMDLinuxFGL ~]# ps aux | grep kblockd 
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root 25 0.0 0.0 g 0? S« J748 | 0:00 [kblockd/0] 
root 26 0.0 0.0 0 0? Sc 17:48 | 0:00 [kblockd/1] 
root 27 0.0 0.0 Ü O? Sc 17:48 — 0:00 [kblockd/2] 
root 28 0.0 00 0 0? 5< 17:48 0:00 [kblockd/3] 


create workqueue 函数 在 创建 工作 队列 时 ， 会 在 系统 的 每 个 CPU 上 都 创建 一 个 工作 进程 ， 
因为 系统 中 有 4 个 CPU， 所 以 上 面 ps 的 输出 信息 显示 创建 了 4 个 kblockd 进程 。 紧 接着 两 
个 名 为 “blkdev_ requests” 与 “blkdev_ queue” 的 kmem cache 被 创建 出 来 ， 因 为 内 核 中 块 
设备 的 请 求 队列 〈queue) AER (request) 对 象 的 分 配 与 释放 非常 频繁 ， 所 以 内 核 采 用 了 
kmem cache 方式 来 进行 。 


genhd device init 函数 为 Linux 内 核 中 块 设备 驱动 程序 的 整体 框架 进行 了 必要 的 初始 化 , 在 
本 章 后 续 的 内 容 中 将 看 到 该 函数 此 处 所 做 工作 的 作用 。 这 段 内 容 看 起 来 的 确 很 抽象 ， 而 且 
SUS a OP ARR BAK, 但 这 里 不 得 不 把 它 先 交代 一 下 ， 因 为 一 旦 正剧 开始 后 ， 
我 们 需要 引用 到 这 里 面 的 东西 。 


11.2 ramdisk 源码 实例 


FARA ramdisk 的 完整 源码 ， 读 者 可 以 在 www.embexperts.com 网 站 上 下 载 。 因 为 篇 幅 的 
原因 ， 此 处 我 将 这 些 源 人 码 进 行 了 精简 ， 删 减 了 诸如 错误 处 理 ， 模 块 参数 等 方面 的 内 容 ， 但 
是 块 设备 驱动 程序 的 关键 元 素 都 在 ， 通 过 这 里 例子 ， 读 者 一 来 可 以 直观 感受 一 下 块 设备 驱 
动 程序 ， 二 来 也 可 以 把 它 做 为 练习 块 设备 驱动 程序 编写 的 起 点 ， 我 会 在 后 续 的 内 容 当 中 揭 
示 这 些 关 键 元 素 的 内 核 机 制 。 


ramdisk 是 用 系统 中 的 RAM 来 模拟 一 个 块 设备 ,在 我 们 的 这 个 例子 中 ,会 产生 两 个 disk 设 
备 ， 每 个 设备 使 用 8 MB 虚拟 地 址 空间 ， 因 为 空间 来 自 于 vmalloc， 所 以 无 法 保证 这 段 空 间 
在 物理 内 存 页 面 上 的 连续 性 ， 不 过 这 并 不 会 影响 该 disk 的 行为 。 图 11-2 显示 了 其 中 的 一 个 
块 设备 与 所 对 应 RAM 之 间 的 关系 : 





图 11-2 ramdisk 使 用 的 虚拟 地 址 空间 


在 我 们 的 源码 中 ，ramdisk 所 在 虚拟 地 址 空间 的 起 始 地 址 保存 在 RAMHD_DEV 对 象 的 data 
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成 员 中 ， 驱 动 程序 在 处 理 来 自 内 核 块 子 系统 中 的 读 / 写 请 求 时 ， 会 给 出 肩 区 sector 的 信息 ， 
程序 据 此 对 data 区 进行 寻 址 ， 然 后 用 memcpy 函数 在 块 设备 与 块 子 系统 之 间 传 输 数 据 。 当 
一 个 ramdisk 设备 被 创建 出 来 之 后 ， 可 以 用 fdisk 给 它 分 区 ， 可 以 用 mkfs.ext3 等 工具 来 在 
分 区 上 创建 文件 系统 ， 然 后 再 把 它 挂 载 到 一 个 目录 上 。 所 有 这 些 ， 从 用 户 的 角度 ， 除 了 系 
统 掉 电 之 后 ramdisk 上 的 内 容 会 丢失 外 ， 跟 真实 的 硬盘 几乎 没有 区 别 。 当 然 在 驱动 程序 的 
实现 方面 , 它 要 比 实际 的 硬盘 容易 多 了 , 因为 在 底层 的 UO 方面 , ramdisk 只 需 使 用 memepy 
这 样 的 图 数 。 实 际 的 硬盘 驱动 ， 比 如 SATA， 会 涵盖 相当 复杂 的 硬件 层面 操作 逮 辑 ， 在 x86 
平台 上 ， 这 由 南 桥 的 开发 者 手册 或 者 是 datasheet 来 提供 。 不 过 我 们 用 ramdisk 已 经 足以 揭 
示 Linux 内 核 中 关于 块 设备 驱动 程序 框架 设计 的 潜在 秘密 。 


这 个 例子 还 有 一 个 非常 重要 的 潜在 用 途 , 那 就 是 通过 ramdisk 来 研究 Linux 的 文件 系统 ， 比 
如 ext3 等 ， 因 为 mkfs.ext3 工具 会 将 ext3 文件 系统 做 到 这 个 ramdisk 中 ， 这 意味 着 ext 文件 
系统 家 族 的 超级 块 、 组 描述 符 、 数 据 位 图 、inode 位 图 和 inode 表 等 一 系列 的 重量 级 数据 结 
构 会 被 记录 到 ramdisk 中 ， 我 们 可 以 通过 另外 的 方式 去 读 / 写 这 段 RAM 空间 来 获得 现场 的 
数据 , 这 对 理解 Linux 中 ext 文件 系统 家 族 的 源 代 码 是 非常 有 帮助 的 。 而 记得 大 约 在 8 年 以 
前 ， 为 了 获得 这 些 数 据 ， 我 是 直接 通过 操作 南 桥 寄 存 器 的 方式 来 对 硬盘 数据 进行 读 / 写 ， 这 
种 原生 态 的 方式 虽然 有 趣 ， 但 显然 比较 低 效 。 


这 个 例子 有 两 个 版 本 的 实现 ， 一 个 是 通过 make request 方式 ， 另 一 个 是 通过 request 方式 ， 
关于 两 者 之 图 的 区 别 ， 后 续 的 讨论 中 会 予以 说 明 。 


11.2.1 make_request 版 本 的 RAM DISK 源码 


<ramhd_mkreq.c> 


#include <linux/module.h> 
#include <linux/kernel.h> 
#include <linux/init.h> 


ORO R4 o o Rm OA d oL o - o m m m n mom n - o a ho 4 o o - — — - «M om- Ro" Ho Roh umm 


include <linux/fs.h> 
#include <linux/types.h> 
#include <linux/fentl.h> 
#include <linux/vmalloc.h> 


#include <linux/blkdev.h> 

#include <linux/hdreg.h> 

#define RAMHD NAME "ramhd" 
define RAMHD MAX DEVICE 2 


#define RAMHD MAX PARTITIONS 4 


#define RAMHD SECTOR SIZE 512 
#define RAMHD SECTORS 16 
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#define RAMHD HEADS 4 
#define RAMHD CYLINDERS 256 


#define RAMHD SECTOR TOTAL (RAMHD SECTORS * RAMHD HEADS * RAMHD CYLINDERS) 
#define RAMHD_SIZE (RAMHD SECTOR SIZE * RAMHD SECTOR TOTAL) //8MB 


typedef struct{ 
unsigned char *data; 
struct request queue *queue; 
struct gendisk *gd; 
}RAMHD DEV; 


static char *sdisk[RAMHD MAX DEVICE] = {NULL,}; 
static RAMHD DEV *rdev[RAMHD MAX DEVICE] = {NULL,}; 


static dev t ramhd major; 


static int ramhd space init(void) 
{ 
int i; 
int err = 0; 
for(i = 0; i < RAMHD MAX DEVICE; I+) 
sdisk[i] = vmalloc(RAMHD SIZE); 
if(!sdisk[i])( 
err = -ENOMEM; 
return ett, 


) 
memset(sdisk[i], 0, RAMHD SIZE); 


return erT; 


static void ramhd space clean(void) 
{ 
int 1; 
for(i = 0; i < RAMHD MAX DEVICE; i++){ 
vfree(sdisk[i]); 


static int ramhd open(struct block device *bdev, fmode t mode) 


i 
return 0; 


SNM 块 设备 驱动 程序 413 


static int ramhd_release(struct gendisk *gd, fmode t mode) 


i 
return 0; 


static int ramhd_ioctl(struct block device *bdev, fmode t mode, unsigned int cmd, unsigned long arg) 
{ 

int err; 

struct hd geometry geo; 


switch(cmd) 
{ 
case HDIO_GETGEO: 
err = laccess ok(VERIFY WRITE, arg, sizeof(geo)); 
if(err) return -EFAULT; 


geo.cylinders - RAMHD CYLINDERS; 

geo.heads - RAMHD HEADS; 

geo.sectors = RAMHD SECTORS; 

geo.start = get start sect(bdev); 

ifícopy to user((void *)arg, &geo, sizeof(geo))) 
return -EFAULT; 

return 0; 


return -ENOTTY; 


static struct block device operations ramhd fops = 
{ 

owner = THIS MODULE, 

open = ramhd open, 

release = ramhd release, 

ioctl = ramhd ioctl, 
h 


static int ramhd make request(struct request queue *q, struct bio *bio) 
{ 

char *pRHdata; 

char *pBuffer; 

struct bio. vec *bvec; 

int 1; 


int err = 0; 


struct block device *bdev = bio->bi_bdev; 
RAMHD DEV *pdev = bdev->bd_disk->private_data; 
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if(((bio->bi_sector * RAMHD SECTOR S1ZE) + bio->bi_size) > RAMHD SIZE){ 
err = -EIO; 
goto out; 


pRHdata = pdev->data + (bio->bi_sector * RAMHD_SECTOR_ SIZE); 


bio for each segment(bvec, bio, i) | 
pBuffer = kmap(bvec--bv page) + bvec-»bv offset; 
switch(bio data dir(bio)) 
i 
case READ: 
memcpy(pBuffer, pRHdata, bvec->bv_len): 
flush dcache page(bvec--bv page); 
break; 
case WRITE: 
flush dcache page(bvec-^»bv page); 
memcpy(pRHdata, pBuffer, bvec->bv_len); 


break; 
default: 
kunmap(bvec--bv page); 
goto out; 
} 
kunmap(bvec->bv_page); 


pRHdata += bvec->bv_len; 


out: 
bio endio(bio, err); 
return 0; - 


static int alloc ramdev(void) 
( 
int i; 
for(i = 0; i < RAMHD MAX DEVICE; i++){ 
rdev[i] = kzalloc(sizeofRAMHD DEV), GFP KERNEL); 
if('rdev[i]) 
return -ENOMEM; 


return 0); 


static void clean ramdev(void) 


{ 


int 1; 
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for(i = 0; i < RAMHD MAX DEVICE; i++)}{ 
if(rdev[i]) 
kfree(rdev[i]); 


static int — init ramhd init(void) 
{ 


int 1; 


ramhd space init(); 
alloc ramdev(); 


ramhd major = register blkdev(0, RAMHD NAME); 


for(i = 0; i © RAMHD MAX DEVICE; i++) 

{ 
rdev[i]->data = sdisk[i]; 
rdev[i]->queue = blk alloc queue(GFP KERNEL); 
blk queue make request(rdev[i]-^queue, ramhd make request); 
rdev[i]->gd = alloc disk(RAMHD MAX PARTITIONS); 
rdev[i]->gd->major = ramhd major; 
rdev[i]--gd--first minor = i* RAMHD MAX PARTITIONS; 
rdev[i]->gd->fops = &ramhd fops; 
rdev[i}->gd->queue = rdev[i}->queue; 
rdev(i]->gd->private_data = rdev[i]; 
sprinti(rdev[ij->gd->disk_name, "ramhdoc", 'a'+i); 
rdev[i]->gd->flags = GENHD FL SUPPRESS PARTITION INFO; 
set_capacity(rdev[i]->gd, RAMHD SECTOR TOTAL); 
add disk(rdev[i]-"gd); 


return 0; 
static void — exit ramhd exit(void) 
{ 

int i; 


for(i = 0; i < RAMHD MAX DEVICE; i++) 


{ 

del gendisk(rdev[i]-^gd); 

put disk(rdev[i]-»gd); 

blk cleanup queue(rdev[i]-7queue); 
) 
clean ramdev(); 


ramhd space clean(); 
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unregister blkdev(ramhd major, RAMHD NAME); 


module init(ramhd init); 
module exit(ramhd exit); 


MODULE AUTHOR("dennis chen @ AMDLinuxFGL"), 
MODULE DESCRIPTION("The ramdisk implementation with request function"); 
MODULE LICENSE("GPL"); 


11.2.2 request 版 本 的 RAM DISK 源码 


#include <linux/kernel.h> 
#include <linux/init.h> 


#include <linux/fs.h> 
#include <linux/types.h> 
#include <linux/fent).h> 
#include <linux/vmalloc.h> 
#include <linux/blkdev.h> 
#include <linux/hdreg.h> 


#define RAMHD NAME "ramsd" 
define RAMHD MAX DEVICE 2 
#define RAMHD MAX PARTITIONS 4 


#define RAMHD SECTOR SIZE 512 
#define RAMHD SECTORS 16 
#define RAMHD HEADS 4 
#define RAMHD CYLINDERS 256 


#define RAMHD SECTOR TOTAL (RAMHD SECTORS * RAMHD HEADS * RAMHD CYLINDERS) 
#define RAMHD SIZE (RAMHD SECTOR SIZE * RAMHD SECTOR TOTAL) //8MB 


typedef struct( 
unsigned char — *data; 
struct request queue *queue; 


spinlock t lock; 
struct gendisk — *gd; 
JRAMHD DEV; 


static char *sdiskIRAMHD MAX DEVICE]; 
. static RAMHD DEV *rdev[RAMHD MAX DEVICE]; 
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static dev t ramhd major; 


static int ramhd space init(void) 
{ 
int i; 
int err = 0; 
for(i = 0; i < RAMHD MAX DEVICE; i++){ 
sdisk[i] = vmalloc(RAMHD SIZE); 


if(!sdisk[i]){ 
err = -ENOMEM; 
return err; 
} 
memset(sdisk[i], 0, RAMHD SIZE); 
} 
return err; 


static void ramhd space clean(void) 
| 


int 1; 
for(i = 0;i<RAMHD MAX DEVICE; i++){ 
vfree(sdisk[i]); 
} 
} 
static int alloc_ramdev(void) 
{ 
int i; 
for(i = 0; i < RAMHD MAX DEVICE; i++){ 
rdev[i] = kzalloc(sizeof(RAMHD_DEV), GFP KERNEL); 
if(!rdev[1]) 
retum -ENOMEM; 
j 
return 0; 
} 
static void clean_ramdev(void) 
{ 
int 3; 
for(i = 0; i < RAMHD MAX DEVICE; i++){ 
if(rdev[i]) 
kfree(rdev[i]); 
} 
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int ramhd open(struct block device *bdev, fmode t mode) 
1 


retum Ü; 


int ramhd_release(struct gendisk *gd, fmode_t mode) 
{ 


return 0; 


static int ramhd ioctl(struct block device *bdev, fmode_t mode, unsigned int cmd, unsigned long arg) 
{ 
int err; 


struct hd_geometry geo; 


switch(cmd) 
{ 
case HDIO_GETGEO: 
err = !access_ok(VERIFY_WRITE, arg, sizeof(geo)); 
if(err) return -EFAULT; 


geo.cylinders - RAMHD CYLINDERS; 

geo.heads = RAMHD HEADS; 

geo.sectors - RAMHD SECTORS; 

geo.start — get start sect(bdev); 

if(copy to user((void *)arg, &geo, sizeof(geo))) 
return -EFAULT; 

return (); 


return -ENOTTY; 


static struct block device operations ramhd fops = 
{ 

owner = THIS MODULE, 

open = ramhd open, 

Ielease = ramhd release, 

.ioctl = ramhd ioctl, 
k 


void ramhd_req_func (struct request queue *q) 
{ 

struct request *req; 

RAMHD DEV *pdev; 
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char *pData; 

unsigned long addr, size, start; 
reg = blk fetch request(q); 
while (req) 1 


start = blk rq pos(req); // The sector cursor of the current request 
pdev = (RAMHD DEV *)req->rq_disk->private_data; 
pData = pdev->data; 
addr = (unsigned long)pData + start * RAMHD SECTOR SIZE; 
size = blk rq cur bytes(req); 
if {rq data dir(req) — READ) 
memepy(req->buffer, (char *)addr, size); 
else 
memcpy((char *)addr, req->buffer, size); 


if(! blk end request cur(req, 0)) 
req = blk fetch request(q); 


int ramhd  init(void) 


{ 


int i; 


ramhd space init(); 


alloc ramdev(); 


ramhd major = register blkdev(0, RAMHD NAME); 


for(i = 0; i < RAMHD MAX DEVICE; i++) 


{ 


rdev[i]->data = sdisk[i]; 

rdev[i]-7gd = alloc disk(RAMHD MAX PARTITIONS); 
spin lock init(&rdev[i]-7lock); 

rdev[i]-7queue = blk init queue(ramhd req func, &rdev[i]->lock); 
rdev(i]->gd->major = ramhd major; 

rdev[i]-*gd--first minor = i* RAMHD MAX PARTITIONS; 
rdev[i]->gd->fops = &ramhd fops; 

rdev[i]->gd->queue = rdev[i]->queue; 
rdey[i]->gd->private data = rdev[i]; 
sprintf(rdev[i]->gd->disk_name, “ramsd%c", 'a'+i); 
set_capacity(rdev(i]->gd, RAMHD SECTOR, TOTAL); 

add disk(rdev[i]-7gd); 


return 0; 
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void ramhd_exit(void) 


{ 
int i; 
for(i = 0; i € RAMHD MAX DEVICE; i++) 
i 
del_gendisk(rdev[i]->gd); 
put_disk(rdev[i]->gd); 
blk_cleanup_queue(rdev[i]->queue),; 
j 
unregister blkdev(ramhd major,RAMHD NAME); 
clean ramdev(); 
ramhd space clean(); 
j 


module init(ramhd init); 
module exit(ramhd exit); 


MODULE AUTHOR("dennis chen (2 AMDLinuxFGL"); 
MODULE DESCRIPTION("The ramdisk implementation with request function"); 
MODULE LICENSE("GPL"); 


为 了 编译 上 面 的 ramdisk 源码 ,这 里 给 出 一 个 简单 的 Makefile, iX Makefile 针对 的 是 
make request 版 本 ， 不 过 读者 可 以 轻易 将 其 修正 为 针对 request 的 版 本 : 
obj-m := ramhd mkreq.o 


KERNELDIR := /lib/modules/$(shell uname -r)/build 
PWD := $(shell pwd) 


default: 

$(MAKE) -C S(KERNELDIR) M-$(PWD) modules 
clean: 

rm -f *.o *.ko *.mod.* 


11.2.3 ramdisk 的 使 用 


我 已 经 在 2.6.39 版 本 的 Linux 系统 上 对 上 述 两 个 版 本 的 ramdisk 进行 了 编译 , 如 果 读 者 那 边 
也 一 切 正 管 ， 那 么 现在 你 的 手头 上 应 该 有 了 两 个 ramdisk 的 内 核 模块 ， ramhd mkreg.ko 和 
ramhd_req.ko 。 ramhd mkreq.ko 与 ramhd req.ko 在 使 用 方式 上 完全 一 样 ， 这 里 以 
ramhd mkreq.ko 为 例 进行 描述 。 


首先 将 ramhd_mkreq.ko 加 入 内 核 ， 
root@AMDLinuxF GL:/home/dennis/book/chap11# insmod ramhd_mkreq.ko 


insmod 执行 后 没有 输出 任何 信息 就 再 次 回 到 shell 命令 接收 状态 , 表明 模块 已 经 成 功 加 入 系 
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统 . 表 象 上 看 来 似乎 风平浪静 , 其 实 内 核 之 中 针对 本 次 的 insmod 已 经 完成 了 相当 多 的 操作 。 
最 简单 的 ， 我 们 尝试 用 dmesg 看 一 下 内 核对 此 有 何 输出 : 


root(@AMDLinuxFGL:/# dmesg 

[152.762357] ramhda: detected capacity change from 0 to 8388608 
[152.763343] | ramhda:unknown partition table 

[152.763750] ramhdb: detected capacity change from 0 to 8388608 
[152.764859]  ramhdb:unknown partition table 


全 于 此 处 的 “unknown partition table” 云 云 ， 我 们 暂时 也 不 关注 ， 后 面 看 了 内 核 的 机 制 之 后 
自然 就 顿悟 。 然 后 再 看 看 /dev 目录 下 有 没有 添加 什么 : 


root(@AMDLinuxFGL:/# ls —1 /dev/ram* 
brw-rw---- I root disk 251, 0 May 29 11:36 /dev/ramhda 
brw-rw---- l root disk 251, 4 May 29 11:36 /dev/ramhdb 


显然 有 两 个 块 设备 ramhda 和 ramhdb 被 加 入 了 系统 中 , 主 设备 号 是 251, 次 设备 号 分 别 是 0 
和 4。 除 了 这 些 以 外 ， 把 一 个 块 设备 添加 进 系 统 当 然 还 会 导致 有 其 他 方面 的 变化 ， 不 过 我 
打算 把 它 留 到 讨论 块 设备 的 内 核 机 制 时 再 把 它们 放出 来 ， 彼 时 作为 直接 的 现场 数据 ， 也 许 
效果 会 更 好 。 


现在 对 于 块 设备 ramhda 和 ramhdb， 可 以 用 fdisk 给 它 分 区 ， 也 可 以 直接 在 上 面 做 个 文件 系 
统 。 我 们 打算 在 ramhda 上 做 出 两 个 主 分 区 ， 此 处 略 过 fdisk 的 具体 操作 ， 当 分 区 完成 后 ， 
可 以 在 /dev 目录 下 发 现 两 个 新 的 块 设备 文件 ramhdal 和 ramhda2， 次 设备 号 分 别 是 1 和 ?2， 


root@AMDLinuxFGL:/# ls -l /dev/ram* 

brw-rw---- | root disk 251, 0 May 29 19:40 /dev/ramhda 
brw-rw---- root disk 251, I May 29 19:40 /dev/ramhdal 
brw-rw---- l root disk 251, 2 May 29 19:40 /dev/ramhda2 
brw-rw---- I root disk 251, 4 May 29 19:39 /dev/ramhdb 


接 下 来 用 mkfs 工具 在 /dev/ramhdal 上 做 个 ext3 文件 系统 出 来 ; 


root@AMDLinuxFGL:/# mkfs.ext3 /dev/ramhdal 
mke2fs 1.41.11 (14-Mar-2010) 

Filesystem Label 

OS type:Linux 

Block size=1024 (log=0) 

Fragment size=1024 (log=0) 

Stride=0 blocks, Stripe width=0 blocks 


422 RA Linux 设备 驱动 程序 内 核 机 制 


976 inodes, 3896 blocks 

194 blocks (4.98%) reserved for the super user 
First data block-1 

Maximum filesystem blocks--4 194304 

I block group 

8192 blocks per group, 8192 fragments per group 
976 inodes per group 


Writing inode tables: done 
Creating journal (1024 blocks): done 


Writing superblocks and filesystem accounting information: done 


This filesystem will be automatically checked every 29 mounts or 


180 days, whichever comes.first. Use tune2fs -c or -i to override. 
文件 系统 做 好 ， 就 可 以 把 /devramhdal 设备 mount 到 一 个 目录 上 ， 比 如 ; 


root(@AMDLinuxFGL:/# mount /dev/ramhdal /mnt 
root@AMDLinuxFGL:/# ls ^| ‘mnt 

total 12 

drwx------ 2 root root 12288 May 29 20:01 lost+found 


现在 读者 可 以 在 /mnt 下 创建 目录 和 建立 新 的 文件 ， 跟 建立 在 实际 硬盘 设备 上 的 文件 系统 没 
有 任何 不 同 。 本 章 接 下 来 的 内 容 将 围绕 ramdisk 程序 来 探讨 块 设备 驱动 程序 的 内 核 机 制 。 


11.3” 块 设备 号 的 注册 与 管理 


对 于 块 设备 驱动 程序 而 言 ， 设 备 号 的 注册 与 管理 由 register blkdev 函数 来 完成 ， 该 函数 的 
实现 为 : 


<block/genhd.c> 


int register_blkdev(unsigned int major, const char *name) 


{ 
struct bik major name **n, *p; 
int index, ret = 0; 


mutex lock(&block class lock); 


/* temporary */ 
if (major == 0) { 
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for (index = ARRAY SIZE(major_names)-1; index > 0; index--) { 
if (major names[index] == NULL) 
break; 
} 
if (index == 0) { 
printk("register blkdev: failed to get major for %s\n", 
name); 
ret = -EBUSY: 
goto out; 
} 
major = index; 


ret = major; 


p = kmalloc(sizeof(struct blk major name), GFP KERNEL); 
if (p — NULL) | 

ret = -ENOMEM; 

goto out; 


p->major = major; 

stricpy(p->name, name, sizeof(p-^name)); 
p->next = NULL; 

index = major to index(major); 


for (n = &major names[index]; *n; n = &(*n)->next) { 
if ((*n)->major == major) 


break; 
j 
if (1*n) 
*n- p; 
else 
ret = -EBUSY; 
if (ret < 0) { 
printk("register blkdev: cannot get major "ed for %s\n", 
major, name); 
kfree(p); 
} 


out: 
mutex unlock(&block class lock); 
return ret; 


} 
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register blkdev 国 数 的 功能 及 实现 方式 和 字符 设备 的 register chrdev region 函数 非常 类 似 ， 


只 不 过 它 使 用 major names 数组 来 管理 系统 中 的 块 设备 号 ; 
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<block/genhd.c> 
static struct blk major name { 
struct blk major name *next; 
int major; 
char name[16]; 
} *major_names[BLKDEV_MAJOR_HASH_SIZE]; 


% BLKDEV MAJOR HASH SIZE 的 值 是 255. Hid register blkdev 函数 的 名 称 看 起 来 很 
像 是 往 系统 中 添加 一 个 块 设备 ， 但 事实 上 它 主 要 用 来 跟踪 系统 中 块 设备 号 的 使 用 情况 ， 以 
防止 出 现 系 统 中 名 个 块 设 备 使 用 到 同一 个 设备 号 的 情况 。 而 majr names 数组 在 当前 的 
Linux 版 本 中 也 只 是 被 blkdev_show 函数 所 使 用 , 后 者 在 定义 了 CONFIG PROC FS 的 情况 
下 用 来 在 /proc/devices 目录 下 显示 所 加 入 的 块 设备 的 名 称 。 对 应 的 块 设备 号 注销 函数 则 是 
unregister blkdev， 所 做 的 事情 和 register blkdev 怡 好 相反 。 所 以 单 从 功能 上 讲 ， 块 设备 驱 
动 程序 可 以 通过 调用 register blkdev 函数 来 动态 获得 一 个 块 设备 的 设备 号 ， 这 人 么 做 的 时 候 ， 
传递 给 register_blkdev 函数 的 第 一 个 参数 应 该 为 0( 正 如 在 前 面 ramdisk 程 序 中 所 做 的 那样 )， 
如 果 函 数 成 功 分 配 了 一 个 尚未 使 用 的 设备 号 ， 将 通过 函数 返回 值 返回 ， 若 失败 则 返回 一 个 
错误 码 , 动态 分 配 的 主 设备 号 范围 在 1~254 之 间 。 如 果 块 设备 驱动 程序 事先 知道 要 使 用 的 
主 设备 号 ， 那 么 对 register blkdev 函数 的 调用 只 是 让 系统 能 够 跟踪 到 设备 号 的 使 用 情况 。 


Lj register blkdev 相反 ， 当 驱动 程序 决定 不 再 使 用 一 个 设备 号 时 〔〈 这 通常 发 生 在 驱动 程序 
所 在 模块 即将 从 系统 中 和 撮 载 时 ), 应 该 调用 unregister blkdev 函数 将 所 占用 的 设备 号 释放 掉 ， 
这 样 后 续 的 设备 才 可 以 重新 使 用 它 。unregister blkdev 的 函数 原型 为 ， 


<block/genhd.c> 


m^ oc o5 io m 


void unregister blkdev(unsigned int major, const char *name) 
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如 果 一 个 设备 驱动 程序 不 调用 register blkdev 函数 就 直接 使 用 设备 号 ， 那 么 它 就 变 成 了 一 
个 不 遵守 系统 规则 的 破坏 者 ， 系 统 因 无 法 跟踪 设备 号 的 使 用 情况 ， 将 导致 潜在 的 设备 号 使 
用 冲突 的 问题 。 无 论 如 何 ， 一 个 设计 和 良好 且 安 分 守 已 的 设备 驱动 程序 没有 理由 不 用 
register blkdev 水 数 来 告 之 系统 ， 它 即将 使 用 哪 一 个 设备 号 。 


11.4 block device 


内 核 用 struct block. device 来 表示 一 个 逻辑 块 设备 对 和 象 ， 可 以 想象 ， 这 个 数据 结构 的 组 成 不 
会 很 简单 。 其 定义 如 下 : 


<include/linux/fs.h> 
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struct block device { 
dev t bd dev; /* not a kdev_t - it's a search key */ 
struct inode * bd inode; /* will die */ 
struct super block * bd super; 


ee ee E 硬是 本 有 E a a r 
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int bd openers; 

struct mutex bd mutex; /* open/close mutex */ 
struct list head bd inodes; 

void * bd claiming; 

void * bd holder; 

int bd holders; 


#ifdef CONFIG SYSFS 
struct list head — bd holder list; 


#endif 
struct block device * — bd contains; 
unsigned bd block size; 
struct hd struct * bd part; 
/* number of times partitions within this device have been opened. */ 
unsigned bd part count; 
int bd invalidated; 
struct gendisk * bd disk; 
struct list head bd list; 
unsigned long bd private; 


/* The counter of freeze processes */ 


int bd fsfreeze count; 
/* Mutex for freeze */ 
struct mutex bd fsfreeze mutex; 


b 
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bd part 和 bd_disk， 前 者 的 类 型 是 struct hd. struct 指针 ， 后 者 则 是 个 struct gendisk 类 型 指针 。 


内 核 用 这 个 数据 结构 既 可 以 表示 一 个 完整 的 逻辑 块 设备 ， 也 可 以 表示 时 辑 块 设备 中 的 某 一 
个 分 区 。 当 struct block device 表示 一 个 完整 的 块 设备 时 ， 其 中 的 成 员 变量 bd part 将 指向 
该 抉 设备 的 分 区 结构 信息 ; 当 struct block device 表示 块 设备 中 的 某 一 分 区 时 ， 成 员 蛮 量 
bd contains 指 问 该 分 区 所 在 的 块 设备 。 当 块 设备 (包括 分 区 所 对 应 的 设备 ) 所 对 应 的 设备 
文件 被 打开 时 ， 内 核 会 创建 一 个 block device 对 象 ， 这 个 过 程 将 在 “ 块 设备 文 忻 节点 ”一 - 
节 中 具体 讨论 。block_device 在 Linux 内 核 中 主要 用 来 沟通 文件 系统 组 件 与 实际 的 块 设备 驱 
动 程序 ， 这 种 类 似 粘 合剂 的 作用 使 得 块 设备 驱动 程序 很 少 有 与 之 直接 打交道 的 机 会 。 内 核 
w RAF block device 和 一 个 所 谓 的 “bdev”VFS 文件 系统 一 起 使 用 ， 后 者 只 在 内 核 室 间 使 
用 ， 不 会 暴露 到 用 户 空 间 ， 关 于 这 个 文件 系统 的 简单 介绍 ， 我 将 把 它 延 后 到 本 章 的 “ 块 设 
备 文 件 的 打开 ”一 节 中 。 


11.5 struct gendisk 


在 内 核 空 间 ， 数 据 结 构 struct gendisk 用 来 表示 一 个 实际 磁盘 设备 的 抽象 ， 这 使 得 它 与 struct 
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block device 有 了 区 分 ，gendisk 将 直接 被 块 设备 驱动 程序 分 配 与 操控 , 它 在 内 核 中 的 定义 是 : 


<include/linux/genhd.h> 


struct gendisk { 
/* major, first minor and minors are input parameters only, 
* don't use directly. Use disk devt() and disk max parts(). 
*/ 
int major; /* major number of driver */ 
int first minor; 
int minors; /* maximum number of minors, =1 for 
* disks that can't be partitioned. */ 


char disk name[DISK NAME LEN]; /* name of major driver */ 
char *(*devnode)(struct gendisk *gd, mode t *mode); 


unsigned int events; /* supported events */ 
unsigned int async events; ^ /* async events, subset of all */ 


/* Array of pointers to partitions indexed by partno. 
* Protected with matching bdev lock but stat and other 
* non-critical accesses use RCU. Always access through 
* helpers. 
x 
struct disk part tbl — rcu *part tbl; 
struct hd struct part0; 


const struct block device operations *fops; 
struct request queue *queue; 
void *private data; 


int flags; 
struct device *driverfs dev; //FIXME: remove 
struct kobject *slave dir; 


struct timer rand state *random; 
atomic t sync io; /* RAID */ 
struct disk events *ev; 

#ifdef CONFIG BLK DEV INTEGRITY 
struct blk integrity *integrity; 

#Hendif 
int node_id; 

h 


虽然 尚 没有 讨论 到 实际 的 使 用 场景 ， 但 是 至 少 有 两 条 线索 可 以 暂时 让 我 们 猜测 一 下 struct 
block device 与 struct gendisk 区 别 : 其 一 是 两 者 定义 的 头 文件 不 一 样 ，struct block device 
定义 在 include/linux/fs.h 中 ,而 struct gendisk 定义 在 include/linux/genhd.h, ft LA block. device 
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应 该 与 文件 系统 部 分 关系 更 密切 , 而 gendisk 则 被 内 核 用 来 表示 现实 中 一 个 通用 磁盘 设备 的 
抽象 ， 应 该 是 块 设备 驱动 程序 的 主要 操作 对 象 。 另 一 条 线索 来 自 两 者 各 自 的 成 员 组 成 ， 可 
以 看 到 struct gendisk 中 有 如 下 一 些 比较 重要 的 成 员 ， 


int major 
int first minor 


int minors 


major 表示 块 设备 的 主 设备 号 ,用 于 指定 当前 设备 对 应 的 驱动 程序 。first_minor #0 minors 
用 于 表示 从 设备 号 的 范围 ， 在 对 前 面 ramdisk 设备 进行 分 区 时 已 经 看 到 ， 从 设备 代表 .一 个 
分 区 。minors 指定 了 当前 gendisk 对 象 所 能 包含 的 最 大 从 设备 的 个 数 ， 如 果 该 值 为 1， 意味 
着 磁 竹 无 法 进行 分 区 +。 


char disk name[DISK NAME LEN] 


当前 块 设备 对 象 名 称 ， 作 为 块 设备 所 对 表示 的 内 核对 象 名 称 而 存在 ， 显 示 于 sysfs 文件 
系统 中 。 


struct disk part tbl *part_tbl 


表示 gendisk 磁盘 对 象 的 分 区 表 信 息 。 在 其 成 员 中 ，part 是 一 个 容纳 struct hd struct 指 
针 ， 而 每 一 个 struct hd. struct 对 象 则 代表 当前 磁盘 上 的 一 个 分 区 。 


const struct block device operations *fops 

表示 针对 当前 gendisk 对 象 上 的 一 组 操作 集合 ， 在 后 续 部 分 会 看 到 这 个 结构 的 定义 。 
struct request_ queue *queue 

当前 的 gendisk 对 象 所 代表 的 块 设备 上 的 IO 请 求 队列 。 
struct hd struct part 

表示 当前 块 设备 的 第 一 分 区 ， 如 果 设 备 没 有 分 区 则 指 代 整 个 设备 。 
void *private_data 

一 个 指向 驱动 程序 的 私有 数据 的 指针 ， 内 核 的 块 子 系统 不 会 修改 它 。 
块 设备 驱动 程序 需要 负责 产生 gendisk 对 象 ， 并 初始 化 其 中 相关 成 员 , 关于 这 一 过 程 , 将 在 
1 minors=1 常常 导致 在 用 fdisk 分 区 时 出 现 类 似 “ WARNING: Re-reading the partition table failed with error 22: Invalid 


argument. The kernel still uses the old table. The new table will be used at the next reboot……" ”这样 的 警告 信息 。 如 果 块 设备 
驱动 程序 存 alloc_disk 时 用 1 (EA. HFA minors=]， 对 应 的 块 设 备 理论 上 无 法 分 区 。 
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后 面 继续 讨论 。gendisk 可 以 表示 一 个 已 经 分 区 的 磁盘 ， 也 可 以 表示 一 个 未 分 区 的 磁盘 。 当 
驱动 程序 调用 add disk 将 一 个 gendisk IRMA RAN, ARRETAN R EEEH 
该 对 象 上 的 分 区 信息 ， 关 于 这 方面 的 更 多 细节 将 在 本 章 的 add disk 部 分 予以 讨论 。 


11.6 struct hd struct 


内 核 使 用 该 结构 来 表示 块 设备 上 的 某 一 分 区 信息 ， 其 定义 如 下 : 
«include/linux/genhd.h- 
struct hd struct { 
sector tstart sect; 
sector t nr sects; 
sector t alignment offset; 
unsigned int discard alignment; 
struct device — dev; 
struct kobject *holder dir; 
int policy, partno; 
struct partition meta info *info; 
#ifdef CONFIG FAIL MAKE REQUEST 
int make it fail; 
#endif 
unsigned long stamp; 
atomic tin flight[2]; 
#ifdefCONFIG_SMP 
struct disk stats — percpu *dkstats; 
Helse 
struct disk stats dkstats; 
#endif 
atomic_t ref; 
struct rcu head rcu head; 


h 


其 中 有 start sect. nr sects 和 partno 成 员 ， 分 别 表示 当前 分 区 的 起 始 扇 区 、 分 区 的 大 小 即 扇 
区 数量 ， 以 及 分 区 编号 。 还 包含 一 个 struct device dev 成 员 ， 这 意味 着 在 内 核 中 磁盘 上 的 
一 个 分 区 也 将 被 视 为 一 个 设备 。 


11.7 用 alloc_disk 分 配 gendisk NR 


当 设 备 驱 动 程序 需要 产生 一 个 gendisk 对 象 时 ， 应 该 调用 alloc disk 函数 ， 该 函数 除了 完成 
必要 的 动态 分 配 一 个 gendisk 对 象 外 ， 还 对 其 进行 一 些 初始 化 ， 其 代码 如 下 : 
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<block/genhd.c> 
struct gendisk *alloc_disk(int minors) 


{ 


return alloc disk node(minors, -1); 


} 


struct gendisk *alloc disk node(int minors, int node id) 


{ 


struct gendisk *disk; 


disk = kmalloc node(sizeof(struct gendisk), 


GFP KERNEL| GFP ZERO, node id); 


if (disk) { 


; 


if (init part. stats(&disk--partO)) | 
kfree(disk); 
retum NULL; 

} 

disk->node_id = node_id; 

if (disk_expand_part_tbl(disk, 0)) { 
free_part_stats(&disk->part0); 
kfree(disk); 
return NULL: 

j 

disk->part_tbl->part[0] = &disk->part0; 


hd_ref_init(&disk->part0); 


disk->minors = minors; 

rand initialize disk(disk); 
disk_to_dev(disk)->class = &block class; 
disk to _dev(disk)->type = &disk type; 
device initialize(disk to dev(disk)); 


return disk; 


} 
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alloc_disk 的 实际 工作 是 在 alloc_disk_node 中 完成 的 , 后 者 先 通 过 kmalloc 分 配 一 个 gendisk 
对 象 ,在 disk expand part tbl 函数 中 , 将 为 gendisk 对 象 分 配 由 其 成 员 part tbl 指向 的 空间 ， 
这 个 空间 用 来 容纳 当前 gendisk 对 象 的 分 区 信息 ， 因 为 块 设备 的 分 区 可 以 动态 增加 或 者 删 
除 ， 因 此 part tbl 所 指向 的 空间 大 小 也 会 相应 变化 。 随 后 disk part tbl 中 的 part[0] 将 指向 
gendisk 对 象 中 part0 成 员 所 在 空间 ，part0 是 一 个 struct hd struct 类 型 ， 用 来 标识 一 个 分 区 ， 
内 核 同 时 也 用 它 标识 整 块 设备 。alloc_disk 所 分 配 的 gendisk 对 象 和 disk part tbl 对 象 间 的 
关系 如 图 11-3 Bros: 
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struct gendisk 






struct disk_part_tbl 


图 11-3 alloc disk 分 配 的 gendisk xS 14) [X 2e Mcd 4 [8] 


之 后 ， 调 用 alloc disk 时 传 入 的 参数 minors 将 被 赋予 disk->minors， 表 示 当 前 gendisk WK 
所 允许 存在 的 最 大 分 区 数 。 


接 下 来 的 代码 是 完成 Linux 设备 驱动 模型 所 要 求 的 工作 ， 其 中 我 们 看 到 内 核 将 part0， dev 
用 来 代表 当前 gendisk 所 属 的 设备 ， 这 体现 在 disk to_dev(disk) 代 码 中 ， 后 者 用 来 获得 disk 
RARER, SEN OL: 
____Sincludefinux/genhd.h> ere er ae eon 

#define disk to dev(disk)  (&(disk)->part0. dev) l m 


所 以 ， 事 实 上 内 核 将 disk-»partO 视 为 disk 所 属 设备 的 真正 代表 。 


与 alloc disk 所 做 的 工作 相反 ， 当 设备 驱动 程序 不 再 需要 alloc disk 分 配 出 来 的 gendisk 对 
象 时 ， 应 该 调用 del gendisk 予以 注销 。del_gendisk 的 函数 原型 为 : 


void del gendisk(struct gendisk *disk); 


11.8 ”向 系统 添加 一 个 块 设备 add disk 


与 字符 设备 一 样 ， 内 核 用 设备 号 来 标识 一 个 块 设 备 ， 通 常 主 设备 号 对 应 一 个 驱动 程序 ， 次 
设备 号 对 应 该 驱动 程序 所 管理 块 设备 上 的 一 个 分 区 。 在 Linux 系统 下 ， 磁 盘 上 的 一 个 独立 
分 区 被 看 做 一 个 设备 ， 对 应 /dev 目录 下 的 一 个 设备 节点 。Linux 下 设备 号 的 数据 类 型 为 
dev t， 无 论 宇 符 设 备 还 是 块 设备 ， 这 个 类 型 都 是 适用 的 。 


与 字符 设备 驱动 程序 调用 cdev add 向 系统 注册 设备 一 样 ， 块 设备 驱动 程序 需要 调用 
add disk 函数 来 向 系统 注册 一 个 磁盘 设备 。 但 是 相 比 于 cdev add. add disk BRERA. 
为 了 更 好 地 表述 这 一 过 程 ， 这 里 先 做 个 限定 ， 在 随后 的 讨论 中 ， 将 用 add disk 来 把 一 个 尚 
未 分 区 的 设备 加 到 系统 中 ， 当 驱动 程序 这 么 做 时 ， 内 核 将 试图 读 取 该 磁盘 设备 上 的 分 区 信 
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轧 ， 对 每 个 有 效 分 区 形成 一 个 驱动 模型 中 设备 device 的 对 象 ， 并 通过 device add 加 到 系统 
中 ， 但 此 时 这 些 分 区 并 不 会 产生 对 应 的 block device 对 象 ， 直 到 分 区 设备 被 打开 。 不 过 由 
于 要 加 入 的 设备 尚未 产生 有 效 分 区 ， 所 以 在 add disk 时 系统 将 无 法 获得 分 区 信息 ， 这 也 正 
是 前 面 在 加 载 ramhd_mkreq.ko 模块 后 dmesg 命令 显示 如 下 信息 的 原因 ; 


[152.763343] ramhda:unknown partition table 


现在 来 仔细 考察 add_disk， 其 核心 代码 如 下 : 


ee ———- 


{ 


struct backing dev info *bdi; 
dev t devt, 
int retval; 


/* minors = 0 indicates to use ext devt from part0 and should 

* be accompanied with EXT DEVT flag. Make sure all 

* parameters make sense. 

i 
WARN _ON(disk->minors && !(disk->major || disk->first_minor)); 
WARN_ON(!disk->minors && !(disk->flags & GENHD FL EXT DEVT)); 


disk->flags |= GENHD FL UP; 


retval = blk_alloc_devt(&disk->part0, &devt); 
if (retval) { 
WARN ON(1); 
return; 
} 
disk_to_dev(disk)->devt = devt; 


/* ->major and ->first_minor aren't supposed to be 
* dereferenced from here on, but set them just in case. 
+j 

disk->major = MAJOR(devt); 

disk->first_minor = MINOR(devt); 


/* Register BDI before referencing it from bdev */ 
bdi = &disk->queue->backing dev info; 
bdi_register_dev(bdi, disk_devt(disk)); 


blk register region(disk devt(disk), disk->minors, NULL, 
exact match, exact lock, disk); 

register disk(disk); 

blk register queue(disk); 
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retval = sysfs_create_link(&disk_to_dev(disk)->kobj, &bdi->dev->kobj, 
"bdi"); 
WARN ON(retval); 


disk add events(disk); 
} 


先 看 该 函数 的 参数 ， 这 是 一 个 struct gendisk 类 型 的 指针 ,设备 驱动 程序 通过 调用 alloc disk 
生成 该 对 象 ， 在 进行 必要 的 初始 化 后 ， 将 该 对 象 的 地 址 作为 参数 调用 add_disk 将 一 个 块 设 
备 添 加 到 系统 ， 一 旦 一 个 块 设 备 对 象 gendisk 被 加 入 系统 ,也 就 向 系统 宣示 了 它 的 存在 ， 内 
核 中 的 块 子 系统 将 可 以 操作 它 , 所 以 这 必 是 在 驱动 程序 最 后 的 阶段 当 所 有 关于 gendisk 的 初 
始 化 工作 都 完成 之 后 才 可 以 进行 。 


add disk 按照 不 同情 况 有 几 条 执行 路 径 , 这 里 我 打算 以 之 前 ramdisk 例子 所 展示 的 情形 (在 
例子 中 ， 调 用 add_disk 加 入 一 个 未 经 分 区 的 disk, disk->minors=4) 讨论 其 中 一 条 路 径 ， 它 
也 是 最 常见 的 一 条 蹄 径 。 在 此 基础 上 ， 为 了 使 描述 更 为 简单 明了 ， 将 add_disk REE 
的 功能 分 解 成 如 下 几 个 部 分 进行 讨论 : 


O blk alloc devt 函数 


tK XX FEY bIK alloc devt 用 来 生成 当前 抉 设备 的 设备 号 , 它 其 实 只 是 使 用 宏 MKDEV 来 组 合 
一 个 dev t 类 型 的 数值 ， 因 此 设备 号 的 主 次 设备 号 应 该 在 调用 add disk 之 前 就 应 该 被 分 配 
好 , 或 者 使 用 静态 指定 的 方法 , 或 者 使 用 动态 分 配 的 方法 (通过 调用 register blkdev 函数 )。 
换 句 话说 ,gendisk 对 象 中 的 major 和 first minor 成 员 应 该 在 add. disk 之 前 就 已 经 赋 过 值 了 。 
ea Je E] C5 EH. devt 带 何 。 


OQ  blk register region 3 at 


接 下 来 的 blk register region 是 个 很 重要 的 调用 ,经 过 这 个 函数 处 理 后 ， 当 前 的 块 设 备 才 真 
正 进 入 系统 的 视野 ， 意 味 着 系统 已 经 可 以 发 现 这 个 新 加 入 的 设备 ， 更 具体 地 ， 这 其 中 的 媒 
介 是 一 个 类 型 为 struct kobj_map 的 全 局 变量 bdev map. blk_register_region 函数 要 完成 的 功 
能 对 应 字 待 型 设备 驱动 程序 中 的 edev add 函数 , 它 会 把 当前 gendisk 对 象 加 入 到 bdev_map 
中 ， 如 图 11-4 所 示 。 


在 “字符 设备 驱动 程序 ”一 章 中 已 经 详细 讨论 过 cdev_add 函数 的 实现 原理 ， 此 处 不 再 
重复 。 


OQ register disk 函数 


ERE bik_register_region 函数 之 后 的 是 register disk 函数 ， 它 要 完成 的 功能 也 非 比 寻常 ， 
其 核心 代码 如 下 : 


dw. Lm; ans ie a ne Se —(———————— Rent m ee 
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bdev_map 


Uxf706 27a0 






*probes[255] 
struct probe 
struct gendisk 
图 11-4 将 gendisk 对 象 加 到 bdev map 中 
<fs/partitions/check.c> 


void register_disk(struct gendisk *disk) 
i 
struct device *ddev = disk to dev(disk); 
struct block device *bdev; 
struct disk part iter piter; 
struct hd struct *part; 


int err; 
ddev->parent = disk-2driverfs dev; 
dev set name(ddev, disk-^disk name); 


/* delay uevents, until we scanned partition table */ 
dev set uevent suppress(ddev, 1); 


if (device add(ddev)) 
return; 
#ifndef CONFIG SYSFS DEPRECATED 
err = sysfs create link(block depr, &ddev->koby, 
kobject_name(&ddev->kobj)); 


if (err) { 
device_del(ddev); 
return; 
) 
#endif 


disk->part0.holder_dir = kobject create and add("holders", &ddev->kobj); 
disk->slave_dir = kobject create and add("slaves", &ddev->kobj); 
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/* No minors to use for partitions */ 
if (!disk partitionable(disk)) 


goto exit; 


/* No such device (e.g., media were just removed) */ 


if (!get_capacity(disk)) 
goto exit; 


bdev = bdget disk(disk, 0); 
if (!bdev) 
goto exit; 


bdev->bd_invalidated = 1; 
err = blkdev_get(bdev, FMODE READ); 
if (err « 0) 
goto exit; 
blkdev put(bdev, FMODE READ); 


exit: 
/* announce disk after possible partitions are created */ 
dev set uevent suppress(ddev, 0); 
kobject uevent(&ddev--kobj, KOBJ ADD); 


/* announce possible partitions */ 
disk part iter init(&piter, disk, 0); 
while ((part = disk part iter next(&piter))) 
kobject uevent(&part to dev(part)--kobj, KOBJ ADD); 
disk part iter exit(&piter); 
I 


函数 前 半 段 实现 的 是 Linux 设备 驱动 模型 中 设备 对 象 的 相关 操作 ,核心 是 对 device add(ddev) 
的 调用 ， 这 将 导致 当前 的 块 设备 在 /dev 目录 下 生成 一 个 新 的 设备 节点 文件 ， 比 如 在 前 面 的 
ramdisk 例子 中 insmod ramhd_mkreq.ko 之 后 出 现 的 /dev/ramhda 5j/dev/ramhdb, 就 是 在 这 里 
产生 的 。 其 中 大 多 数 函 数 的 细节 都 曾 在 “Linux 设备 驱动 模型 ”一 章 中 讨论 过 。 


在 实现 了 设备 驱动 模型 所 要 求 的 功能 之 后 ， 接 下 来 的 内 容 是 驱动 程序 员 比 较 感 兴趣 的 ， 因 
为 它们 跟 设 备 驱 动 程序 关系 更 为 密切 。 其 中 disk partitionable 用 来 检测 当前 块 设备 是 否 有 
分 区 ,检测 的 依据 是 当前 设备 的 disk->minors ERAF 1， 如 是 则 继续 往 下 进行 ， 否 则 表明 
这 是 个 不 分 区 的 磁盘 设备 ， 代 码 将 直接 进入 退出 路 径 。 get_capacity 则 是 返回 
disk->part0.nr_sects, ramdisk 例子 在 add disk 之 前 有 对 set_capacity() 的 调用 , 所 以 这 两 个 函 
数 都 不 会 返回 0， 于 是 bdget_disk 函数 将 被 调用 ， 产 生出 一 个 新 的 block device 对 象 ， 这 个 
过 程 发 生 在 bdget disk()O bdget()O iget5 locked0) 调 用 链 中 。 
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先 看 bdget 在 源码 中 的 实现 : 


<fs/block_ dev. c> 


| omo m o m m om m om m a a a 0 78 OX ULOM a "Low o" ow o^ omo Boo omm om ooo oA c 


struct block | device *bdget(dev_ tdev) 


{ 


struct block_device *bdev; 


struct inode *inode; 


inode = 


iget5 locked(blockdev superblock, hash(dev), 
bdev test, bdev set, &dev); 


if ('inode) 


return NULL; 


bdev = &BDEV I(inode)--bdev; 
if (inode-^i state & I NEW) { 


} 


bdev->bd_contains = NULL; 

bdev->bd_inode = inode; 

bdev->bd_block_size = (1 << inode->i_blkbits); 
bdev->bd_part_count = 0; 

bdev->bd_invalidated = 0; 

inode->i_mode = S IFBLK; 

inode->1_rdev = dev; 

inode->1_bdev = bdev; 

inode->i_data.a_ops = &def_blk_aops; 

mapping set gfp mask(&inode->i_data, GFP_USER); 
inode->i_data.backing dev info = &default backing dev info; 
spin lock(&bdev lock); 

list add(&bdev--bd list, &all bdevs); 

spin unlock(&bdev lock); 

unlock new inode(inode); 


return bdev; 


I 


在 add disk 的 调用 上 和 下文 中， 由 于 在 iget5 locked 中 “bdev”" 文 件 系 统 的 inode 节点 尚未 产 
生 ， 所 以 实际 上 iget5 locked 将 通过 bdev alloc inode 函数 分 配 一 个 struct bdev inode 类 型 
的 对 象 ， 调 用 链 是 igetS_locked()>get_new_inode()alloc_inode(), alloc inode 最 终 会 调用 
到 bdev_alloc_inode: 


<fs/block_dev.c> 


wow sss sss ee eee i0 d^ Gn n 0 ea Ch C0 CES LO RS né o4 ee ee ee ee — 


static struct inode *bdev alloc inode(struct super | block *sb) 


{ 


struct bdev inode *ei = kmem cache alloc(bdev cachep, GFP KERNEL); 
if (lei) 


retum NULL; 
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return &ei->vfs_inode; 
j 


这 里 struct bdev inode 的 定义 为 : 


<fs/block dev.c> 


ee od A or 


struct bdev inode ( 
struct block device bdev; 
struct inode vfs inode; 


má m um; 证 


h 


所 以 通过 struct bdev_inode 结构 ，bdev alloc inode 函数 在 分 配 了 一 个 struct inode 对 象 的 同 
时 ， 也 分 配 了 一 个 struct block device WR, BAIR inode, 但 是 通过 container of ZZ 
很 容易 得 到 struct bdev_inode 对 象 的 指针 。vfs inode 这 个 inode 的 分 配 因 为 来 自 “bdev” 文 
件 系统 的 超级 块 ， 所 以 应 该 隶属 于 “bdev” 文 件 系统 〈 关 于 这 个 文件 系统 ， 将 在 本 章 后 续 
的 “ 块 设备 文件 的 打开 ”一 节 中 了 予以 讨论 )。v 全 inode 在 刚 从 iget5$ locked 中 分 配 出 来 的 时 
候 ，i_state 成 员 上 是 带 有 LNEW 标识 的 ， 所 以 bdget 函数 中 的 if (inode->i_state & I NEW) 
条 件 是 满足 的 ， 在 这 个 条 件 块 里 ， 直 到 unlock new inodefinode) 语 句 执 行 完 ，i state 上 的 
I NEW 标志 才 会 被 清除 掉 。 


bdget 函数 虽然 返回 的 是 struct block device 对 象 ， 但 是 igetS locked 中 分 配 的 vf inode 会 
被 记录 到 struct block device 对 象 的 bd_inode 成 员 中 。 图 11-5 示意 了 igetS locked 函数 产生 
的 struct bdev_inode 对 象 中 bdev 与 vfs inode 之 间 的 关联 : 


struct bdev _inode 





11-5 bdget_disk 产生 的 bdev inode 对 象 


另外 一 个 需要 注意 的 地 方 是 ，iget5_locked(O) 函 数 在 执行 时 ， 通 过 传 入 的 bdev_set 函数 将 块 
设备 文件 节点 中 的 设备 号 放 在 了 新 产生 的 block device MAM) bd. dev 成 员 中 ; 
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<fs/block dev.c> 
static int bdev_set(struct inode *inode, void *data) 


| 


BDEV_I(inode)->bdev.bd_dev = *(dev t *)data; 
return 0; 


; 


当 bdget disk ÁO T ERE] block. device 对 象 指 针 bdev 返回 后 ，bdev->bd invalidated 被 
重 置 为 1， 这 使 得 内 核 将 有 机 会 对 新 加 入 的 gendisk 设备 进行 分 区 扫描 。 


register disk 师 数 中 接 下 来 还 有 一 个 很 重要 的 调用 blkdev get(bdev, FMODE READ), Jaa 
实际 上 调用 的 是 _blkdev_pgetfbdev，FMODE READ, 0)。 这 个 函数 很 长 ， 下 面 根据 其 在 
ramdisk 例子 的 上 下 文中 执行 的 逻辑 顺序 解释 一 下 该 函数 的 主要 功能 ， 


函数 首先 调用 disk = get_gendisk(bdev->bd_dev, 六 partno) 来 获得 gendisk 对 象 ， 第 一 个 参数 
bdev->bd_dev 是 block device 对 象 中 记录 下 的 设备 号 ，get_gendisk 利用 该 设备 号 调用 
kobj lookup PAŠE bdev_map 中 查找 gendisk 对 象 ， 读 者 可 以 参考 图 11-4。 函 数 将 把 在 
bdev map 中 找到 的 gendisk MARIE disk 返回 ， 同 时 partno=0. 


在 当前 由 add disk 发 起 的 这 个 调用 链 中 ，bdev->bd openers 显然 是 0， 表明 bdev MEME 
辑 设 备 尚 未 被 open 过 : 
if (lbdev->bd_opevers) { 
bdev->bd_disk = disk; 


bdev->bd_contains = bdev; 


bdev->bd_disk 此 时 指向 了 正 被 add_disk 加 入 系统 的 gendisk XH, bdev->bd_contains 指向 
自身 。 


在 这 条 路 径 中 ，if (tpartno) 显 然 是 满足 的 ，bdev->bd part disk get part(disk, partno) 的 执行 
将 导致 bdev->bd_part 指向 disk->part0。 之后, 如果 设 备 驱 动 程序 的 block device operations 
对 象 中 实现 了 open 国 数 ， 那 么 内 核 将 调用 它 : 


if (disk->fops->open) { 


在 我 们 的 ramdisk 例子 中 ，add_disk 的 调用 将 使 得 ramhd_open 函数 被 调用 ，ramhd_open 直 
接 返 回 0。 随 后 有 个 重要 的 调用 是 rescan_partitions， 它 将 扫描 当前 gendisk 设备 上 的 分 区 信 
已 ， 调 用 以 下 面 的 方式 发 起 ; 


if (bdev->bd_invalidated && (!ret || ret — -ENOMEDIUM)) 
rescan partitions(disk, bdev); 


rescan partitions 图 数 扫描 disk 设备 上 分 区 的 原理 是 ,将 识别 不 同 分 区 的 函数 指针 放 在 一 个 
check part 数组 中 : 
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aad 


#ifdef CONFIG MSDOS PARTITION 
msdos partition, 
#endif 


#ifdef CONFIG_IBM_PARTITION 
ibm_partition, 
*endif 


NULL 
j 


rescan_partitions EK SKYE — ^ while 循环 中 依次 调用 check part 中 的 函数 去 判断 当前 的 
gendisk 对 象 上 是 否 存在 有 效 分 区 ， 在 我 们 的 ramdisk 例子 中 ， 因 为 vmalloc 分 配 出 来 的 空 
间 中 不 存在 任何 有 效 分 区 ， 所 以 rescan_partitions 将 在 无 法 发 现 分 区 的 情况 下 打印 出 
“unknown partition table ”这 样 的 信息 。 


ON HY SWE add disk 加 入 系统 的 块 设备 上 存在 有 效 的 分 区 ， 会 发 生 什么 情况 呢 ? 
rescan partitions 函数 会 调用 disk expand part tbl 来 扩展 gendisk->part_tbl 所 指向 的 空间 ， 
然后 通过 add_partition() 向 系统 增加 该 分 区 设备 ， 所 以 add partition 会 首先 分 配 一 个 struct 
hd struct 类 型 的 空间 p 来 容纳 该 分 区 的 信息 〈 分 区 的 起 始 扇 区 、 大 小 、 编 号 等 )， 然 后 把 p 
记录 到 gendisk 的 part_tbl 所 指向 的 空间 内 ， 假 设 扫描 到 的 分 区 编号 为 patno, WARE 
gendisk->part_tbl->part[partno] = p。 国 为 内 核 把 分 区 视 为 独立 的 设备 ， 所 以 分 区 有 属于 自己 
的 device 结构 ，rescan_partitions 函数 最 终 会 调用 device add 将 分 区 设备 加 入 系统 ， 导 致 在 
/dev 目录 下 生成 类 似 /dev/ramhdal 和 /dev/ramhda2 这 样 的 设备 文件 .在 add disk 发 起 的 调用 
链 中 ， 因 为 通过 rescan_partitions 发 现 的 分 区 设备 只 是 会 被 device add 加 入 系统 ， 所 以 对 新 
发 现 的 分 区 ， 并 没有 对 应 的 新 的 block_device 对 象 产 生 。 


© blk register queue 函数 


add disk 中 在 register disk 调用 之 后 的 另外 一 个 调用 是 blk register queue， 用 来 对 当前 的 
disk 对 象 请 求 队列 进行 必要 的 初始 化 。 这 个 函数 虽然 表面 上 看 与 块 设备 的 重点 请 求 队列 关 
系 密切 ， 但 是 其 代码 要 完成 的 功能 还 只 限于 Linux 设备 模型 中 与 sysfs 相关 的 操作 ， 对 于 设 
备 驱动 程序 员 而 言 ， 并 没有 特别 要 注意 的 地 方 。 


所 以 到 现在 我 们 看 到 add disk 的 主要 功能 是 把 一 个 通用 磁盘 对 象 gendisk 加 到 bdev map 
中 ， 同 时 在 /dev 下 动态 生成 一 个 设备 节点 (这 由 device add 完成 )， 然 后 还 动态 生成 一 个 
block device 对 象 和 一 个 隶属 于 “bdev” 文 件 系 统 的 inode， 这 两 个 动态 对 象 由 于 是 绑 定 在 
同一 个 数据 结构 struct bdev_inode 中 ， 所 以 通过 “bdev” 文 件 系 统 的 inode 可 以 很 容易 地 获 
得 block device 对 象 。 这 样 在 打开 一 个 块 设备 文件 节点 时 ， 通 过 查找 这 个 “bdev” 文 件 系 
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统 的 inode 就 可 以 获得 对 应 的 block device 对 象 。 另 外 add disk 在 向 系统 中 加 入 一 个 磁盘 
对 象 时 ， 如 果 该 磁盘 对 象 拥有 分 区 ， 那 么 add disk 还 会 扫描 分 区 信息 ， 对 于 每 一 个 识别 出 
的 分 区 ， 都 会 产生 一 个 新 的 device 出 来 ， 同 时 会 通过 调用 device add 把 分 区 对 应 的 设备 加 
入 系统 。 内 核 在 通过 add partition 增加 分 区 时 ， 并 不 会 伴随 有 新 的 block device WREE, 
这 与 打开 一 个 分 区 设备 不 同 。 


TE AS, add disk 函数 在 把 gendisk 对 象 如 入 系统 时 ， 会 产生 一 个 新 的 block device 对 象 
与 之 对 应 ， 如 果 用 图 来 表示 上 述 add disk 执行 期 间 所 建立 的 gendisk. block device 和 
hd struct 之 间 的 关系 ， 大 体 上 如 图 11-6 所 示 ，block device 对 象 的 bd. part 指向 gendisk 的 
part0 成 员 所 在 空间 ，block device 的 bd_disk 指向 gendisk 对 象 ， 


bloc k devi ce 


| (ESSE 2 
zm i Ae 






hd struct 


11-6 add disk 产生 的 block device 与 gendisk 等 的 关系 


图 中 disk part tbl 空间 中 的 虚线 框 表 示 ， 如 果 rescan partitions 函数 在 gendisk 所 表示 的 块 
设备 上 发 现 有 效 分 区 ， 那 么 新 的 分 区 将 会 导致 一 个 新 的 hd struct X] $277 ^E, [8]ET add disk 
会 将 gendisk->part tbl->part[partno] 指 向 这 个 新 产生 的 hd. struct 对 象 ， 新 分 区 会 作为 一 个 独 
立 的 device 加 到 /dev 目录 下 。 在 新 的 分 区 设备 被 打开 前 ， 不 会 有 对 应 的 block device WR 
产生 。 将 很 快 在 后 续 的 “ 块 设备 文件 的 打开 ”一 节 中 看 到 打开 一 个 块 设备 时 内 核 的 行为 。 


11.9 block device operations 


对 于 字符 设备 而 言 ， 内 核 为 其 定 六 的 一 整套 操作 集 包 售 在 数据 结构 file operations 中 。 而 对 
于 块 设备 而 言 ， 对 应 的 数据 结构 则 是 block device operations: 


<include/linux/blkdev.h> 


struct block device operations { 
int (*open) (struct block device *, fmode t); 
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int (*release) (struct gendisk *, fmode_t); 

int (*locked ioctl) (struct block device *, fmode_t, unsigned, unsigned long); 

int (*ioctl) (struct block device *, fmode t, unsigned, unsigned long); 

int (^compat ioctl) (struct block device *, fmode t, unsigned, unsigned long); 

int (*direct access) (struct block device *, sector t,void **, unsigned long *); 

int (*media changed) (struct gendisk * ); 

void (*unlock native capacity) (struct gendisk *); 

int (*revalidate disk) (struct gendisk *); 

int (*getgeo)(struct block device *, struct hd geometry *); 

/* this callback is with swap. lock and sometimes page table lock held */ 

void (*swap slot free notify) (struct block device *, unsigned long); 

struct module *owner; 

h 

相对 于 字符 设备 的 file operations 结构 ， 对 于 块 设备 驱动 程序 而 言 ，block_device_operations 的 
作用 已 经 明显 被 弱化 了 ， 在 前 面 ramdisk 的 实现 当中 ， 我 们 很 少 去 实现 该 结构 中 所 定义 的 函数 
指针 。 细 心 的 读者 也 许 已 经 发 现 和 字符 设备 的 file operations 结构 的 一 个 很 大 的 人 区别 是 
block device operations 结构 中 没有 类 似 的 read 和 write 函数 , 块 设备 当然 不 可 能 没有 对 应 的 读 
/号 冰 数 ， 盏 则 也 就 没有 多 少 存 在 的 价值 了 ， 只 不 过 块 设备 的 读 / 号 操作 由 为 一 个 草 要 的 组 件 读 / 
写 请 求 队列 来 完成 ， 这 种 设计 上 的 差异 也 体现 在 了 块 设备 与 字符 设备 的 使 用 模式 上 ， 相 对 于 需 
要 和 系统 进行 大 量 数 据 传 输 的 块 设备 ,字符 设备 和 系统 的 数据 交互 往往 很 少 ， 因 此 块 设备 需要 
有 重新 的 设计 来 优化 数据 读 / 写 这 部 分 的 性 能 。 男 一 方面 ， 应 用 程序 在 使 用 字符 设备 驱动 程序 
时 ， 通 过 file operations 作 中 转 ， 这 个 调用 过 程 相当 清晰 而 直 白 ， 但 是 对 于 块 设备 而 言 ， 它 主 
要 被 系统 中 的 文件 系统 组 件 所 使 用 ， 一 般 的 用 户 程序 很 少 会 像 使 用 字符 设备 那样 使 用 块 设备 。 


11.10” 块 设备 文件 的 打开 


现在 我 们 打算 从 块 设备 文件 节点 的 生成 过 程 作为 切入 点 来 讨论 打开 一 个 块 设备 文件 时 内 核 
所 做 的 事情 ， 同 时 我 们 也 将 看 到 此 过 程 中 block device 对 象 在 系统 中 的 用 途 。 虽 然 在 设备 
驱动 程序 中 ， 块 设备 的 打开 函数 功能 已 经 被 弱化 ， 但 是 通过 探讨 块 设备 文件 的 打开 过 程 ， 
可 以 加 深 对 块 设备 驱动 程序 在 内 核 中 的 相关 技术 细节 的 了 解 。 这 期 间 有 些 代 码 和 add disk 
是 重复 的 ， 但 是 两 者 的 执行 路 得 有 时 会 有 不 同 ， 为 方 使 读者 阅读 ， 笔 者 会 把 前 面 出 现 过 的 
代码 尽量 精简 地 摘录 下 来 。 


先 来 看 块 设备 文件 节点 的 生成 。 在 支持 动态 设备 节点 生成 的 系统 中 (现在 内 核 通 过 支持 
“devtmpf ”设备 文件 系统 2 在 /dev 目录 下 动态 生成 设备 节点 , 本 章 以 这 种 情况 为 讨论 主线 )， 


2 这 是 个 基于 RAM 的 文件 系统 ， 在 内 核 中 作为 一 棵 独立 的 VES 怪 而 存在 。 内 核 在 初始 化 期 间 ， 如 果 检 测 到 一 些 设备 ， 
比如 PCI 的 扫描 过 程 ， 会 在 该 VES 上 增加 新 的 设备 和 节点。 “devtmp 丰 ”文件 系统 最 终 会 mount 到 根 文 件 系统 的 /dev H 
db. PRRP ZIA ie) BE. 
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device add 将 在 /dev 目录 下 生成 一 个 块 设备 文件 节点 ， 正 如 2.6 节 “ 设 备 文 件 节 点 的 生成 ” 
中 介绍 的 那样 ， 一 个 新 加 入 的 块 设备 ， 比 如 ramdisk 例子 中 的 “ramhda”， 将 会 在 /dev FE 
成 /dev/ramhda 设备 节点 ， 这 个 节点 的 inode 由 “devtmpf” 文 件 系统 负责 生成 ， 在 生成 该 
inode 时 init special inode 函数 会 被 调用 ， 正 如 在 第 2 章 中 看 到 的 那样 ，init_special_inode 
主要 给 inode->i_fop 和 inode->i_rdev 赋值 ; 


<fs/inode.c> 
void init_special_inode(struct inode *inode, umode_t mode, dev_t rdev) 
i 
inode->i_mode = mode; 
if (S_ISCHR(mode)) { 
inode->i_fop = &def chr fops; 
inode->i_rdev = rdev; 
} else if(S ISBLK(mode)) | 
inode-—i fop = &def blk fops; 


inode--1 rdev = rdev; 


} 
PRA, WRK. BBA inode->i fop = &def blk fops, def blk fops 的 定义 如 下 : 


<fs/block_dev.c> 
const struct file_operations def_blk_fops = { 
.open = blkdev_open, 
„release = blkdev close, 
llseek = block llseek, 
Tead — do sync read, 
write = do sync write, 
alo read = generic file aio. read, 


alo write = blkdev aio write, 
.mmap = generic file mmap, 
.fsync = blkdev fsync, 
unlocked ioctl = block ioctl, 
#ifdef CONFIG COMPAT 
.compat ioctl — compat blkdev ioctl, 
#endif 
.„splice_read = generic file splice read, 
splice write = generic file splice write, 
h 
理论 上 def blk fops 结构 中 所 定义 的 成 员 函 数 都 应 该 能 在 block device operations X1 RP d 
到 对 应 的 项 ， 但 是 稍稍 比较 一 下 就 会 发 现 ， 两 者 之 间 还 有 较 大 的 差异 ， 原 因 是 内 核 中 的 块 


子 系 统 截留 了 def blk fops 中 的 一 些 函 数 调用 而 没有 将 其 下 传 到 驱动 程序 中 ， 比 如 
read/write 和 aio read/aio write 等 。 
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言 归 正 传 ， 当 用 户 程序 打开 一 个 块 设备 文件 时 ， 比 如 /devramhda，blkdev_open 将 被 调用 ， 
该 函数 的 原型 是 : 


int blkdev open(struct inode * inode, struct file * filp); 


实际 传人 的 参数 inode 由 “devtmpfs” 设 备 文 件 系统 产生 3。blkdev_ open 的 源码 相对 比较 元 
长 ， 这 里 不 再 摘录 ， 对 这 个 函数 我 们 感 兴趣 的 地 方 有 以 下 几 点 : 


(1) 函 数 会 获得 一 个 struct block. device 对 象 ( 该 对 象 是 在 add disk 函数 调用 时 动态 生成 的 )， 
这 个 过 程 发 生 在 blkdev open()2 bd _ acquire() 函 数 调 用 链 中 : 
. <fs/block_« dev. c» 


static int blkdev - open(struct ade hide fet file *filp) - MEM 
t 


struct block device *bdev; 
bdev — bd acquire(inode); 


} 


bd acquire 图 数 的 具体 实现 细节 并 不 如 想象 中 的 那样 直 白 ， 要 讲 清楚 这 个 过 程 还 是 有 些 吃 
Ai, 因为 其 中 牵涉 到 另外 一 个 基于 RAM 的 文件 系统 “bdev” 这 个 文件 系统 的 性 质 是 VFS, 
并 没有 挂 载 到 用 户 空 间 的 根 文件 系统 上 ， 所 以 用 户 空间 无 法 看 到 这 棵 树 ， 内 核 源 码 称 之 为 
“pseudo-fs”。 下 面 是 内 核 给 它 的 定义 ; 


__<fsfolock_dev.c> 
static struct file system _type bd | type = f NUS LE 
.name = "bdev", 
get sb — bd get sb, 
kill sb —kill anon super, 
h 


因为 bd_acquire 函数 中 会 用 到 该 文件 系统 的 功能 ， 所 以 在 继续 bd acquire 函数 之 前 读者 需 
要 一 些 Sbdev” 文 件 系 统 的 相关 背景 ,该 文件 系统 的 初始 化 发 生 在 bdev_cache init HHP: 


.. “falblock_dev.c> 
void init bdev cache  ini(void) - Ew PO UU AES E DI a RS TEE RIED Vee ERU 
i 
int err; 
struct vfsmount *bd mnt; 


3 这 一 节 中 关于 inode 854 Bi ie CEPR LEA DM, BATRANA] inode 会 频繁 出 现 ， 一 个 是 对 应 /dev 下 设备 文件 
TAH) inode, iX inode 属于 “devtmpfs” 文 件 系统 范 畴 ， 另 一 个 会 和 block device 一 起 产生 ， 该 inode i^ "bdev" {h 
文 性 系统 。 读 者 可 能 要 在 这 些 地 方 花 点 心思 ，。 
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bdev_cachep = kmem cache create("bdev cache", sizeof(struct bdev_inode), 
0, (SLAB HWCACHE ALIGN|SLAB RECLAIM ACCOUNT| 
SLAB MEM SPREADISLAB PANIC), init once); 
err = register filesystem(&bd type); 
if (err) 
panic(" Cannot register bdev pseudo-fs"); 
bd mnt = kern mount(&bd type); 
if (IS ERR(bd mnt)) 
panic(" Cannot create bdev pseudo-fs"); 


blockdev superblock = bd mnt--mnt sb; /* For writeback */ 
} 


bdev cachep 是 一 个 kmem_cache 4) ACHE, struct block device 对 象 的 分 配 就 出 自 这 里 。 
bd mnt- kern mount(&bd type) 用 来 产生 “bdev” 文 件 系统 mnt 结构 ， 意 味 着 它 在 内 核 中 是 
一 棵 独立 的 VFS 文件 树 。blockdev superblock 保存 着 该 文件 系统 的 超级 块 ， 
blockdev superblock = bd mnt->mnt sb, bd mnt->mnt sb 所 指向 的 超级 块 显然 应 该 由 
bd type 对 象 的 成 员 bd get sb 来 分 配 ， 这 一 过 程 发 生 在 kern mount 函数 中 ， 后 者 先 分 配 
mnt 对 象 ， 然 后 分 配 文件 系统 超级 块 ， 接 下 来 依次 是 分 配 “bdev” 文 件 系 统 根 节点 所 对 应 
的 inode 和 dentry， 这 其 中 顺序 很 重要 ， 超 级 块 先 于 inode 被 分 配 出 来 ， 这 样 分 配 inode 就 
可 以 通过 先期 分 配 出 的 超级 块 对 象 中 的 sb->s_op->alloc_inode pA BOK SEM. 


对 于 “bdev” 文件 系统 ，sb->s op 操作 集 的 实例 化 来 自 于 内 核定 义 的 一 个 struct 
super operations X] $: 


.statfs = simple_statfs, 

alloc_inode = bdev alloc inode, 

destroy_inode = bdev destroy inode, 

.drop inode = generic delete inode, 

.clear_inode = bdev clear inode, 

h 

对 于 该 对 象 ， 我 们 目前 只 关注 .alloc inode = bdev alloc inode， 它 将 用 来 分 配 “bdev” 文 件 
系统 的 inode 节点 a 


再 回 到 bd acquire 函数 ， 在 打开 /dev/ramhda 的 上 下 文中 ， 我 们 知道 它 要 获得 add disk 产生 
的 struct block_device 对 象 ,具体 代码 发 生 在 bd_ acquire) bdget() igetS locked0) 调 用 链 中 ， 
“EPH bdget 函数 被 调用 时 ， 实 际 传 入 的 参数 是 一 个 设备 号 dev t dev， 这 个 参数 来 自 
/dev/ramhda 在 “devtmpfs* 文 件 系统 下 对 应 的 inode->i rdev。 注 意 此 时 讨论 的 内 容 是 在 打开 
ramdisk 例子 所 产生 的 /dev/ramhda 的 上 下 文中 ， 这 意味 看 对 应 /dev/ramhda 的 属于 “bdev” 
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文件 系统 的 inode 已 经 产生 (由 前 面 讨论 的 add. disk 调用 产生 )， 所 以 igetS locked 函数 的 
代码 在 执行 时 ， 通 过 内 部 的 find_inode 调用 将 得 到 一 个 隶属 于 “bdev” 文 件 系统 的 inode, 
这 个 inode 对 象 实际 上 是 struct bdev_inode 结构 中 的 vfs inode. 


但 是 现在 假如 打开 的 是 隶属 于 ramhda 的 一 个 分 区 设备 ramhdal， 从 前 面 add disk 的 讨论 可 
知 ， 此 时 ramhdal 尚未 在 “bdev” 文 件 系统 中 产生 vfs inode 及 block device WH, ATLA 
bdev_alloc_inode 函数 在 这 种 情况 下 将 被 调用 , 为 当前 的 /ramhdal 分 区 设备 节点 产生 一 个 新 
的 block device 和 vf inode 对 象 。 


因为 block device 实例 与 vfs inode 实例 绑 定 在 同一 个 结构 体 对 象 中 ， 所 以 由 vfs inode 可 
以 得 到 block_device MR, 内 核 通过 宏 BDEV _I 来 完成 。 以 上 这 些 过 程 都 反映 在 bdget 函数 
的 如 下 代码 中 《读者 应 该 记得 前 面 讨论 add_disk 函数 时 ， 这 个 函数 也 曾 被 调用 到 ): 
M ce rd Lo NIRE RET 
struct block device *bdget(dev t dev) 
{ 


I ei a "um E ad E c es v me ee am aise: id uei cus ain ges (ga. mim RNC. i, se an, ieee Se Se eed GA ede W^ ce ey ree e 


struct block device *bdev; 
struct inode *inode; 


inode = iget5 locked(blockdev superblock, hash(dev), 
bdev test, bdev set, &dev); 
if (!inode) 
return NULL; 
bdev = &BDEV I(inode)--bdev; 


return bdev; 


} 


看 过 这 段 代码 的 读者 应 该 知道 ， 它 里 面 还 有 一 个 if (inode->i_state & I NEW) 语 句 块 ， 不 过 
在 打开 块 设备 文件 /dev/ramhda 的 这 个 流程 中 ,该 这 条 件 语句 不 满足 ， 所 以 不 会 执行 。bdget 
孙 数 最 后 返回 一 个 block. device 对 象 。 


bd acquire 中 还 有 一 个 任务 是 将 新 获得 的 struct block. device 对 象 记录 到 “devtmpfs” 文 件 
系统 下 对 应 /dev/ramhda 目录 的 inode 的 i. bdev P: 


<fs/block_dev.c> 


一 


static struct block_device *bd_acquire(struct inode *inode) 
{ 


struct block_device *bdev; 


bdev = bget(inode->i_rdev); 
if(bdev){ 
inode->i_bdev = bdev; 
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} 


对 比 字符 设备 驱动 程序 可 以 看 到 ， 字 符 设 备 打 开 时 设备 节点 所 对 应 的 inode 的 i_cdev 指 同 
cdev X] & , 字符 设备 驱动 程序 直接 操作 cdev 对 象 ,而 块 设备 则 不 同 , 块 设备 文件 节点 的 inode 
的 i bdev 指向 block device X1 $& , 但 是 块 设备 驱动 程序 中 直接 打交道 的 不 是 它 ,而 是 gendisk 
对 象 ， 从 块 设备 节点 到 gendisk 对 象 ， 这 中 间隔 了 一 个 block device WR. 


总 之 ， 不 管 是 打开 已 经 被 add disk 加 入 系统 的 /dev/ramhda 还 是 打开 ramhda 设备 上 的 一 个 
分 区 /dev/ramhdal，bd acquire() 函 数 都 会 返回 一 个 block device 对 象 ， 它 或 者 是 在 add disk 
中 已 经 分 配 好 的 ， 或 者 是 在 打开 一 个 分 区 设备 时 新 分 配 的 。 


(2) 如 果 不 考虑 对 块 设备 文件 的 排他 性 打开 (FMODE_EXCL)，blkdev_open 接 下 来 将 调用 
blkdev get Pi Zt: 
Pu ccc cc NP 

static int blkdev open(struct inode *inode, struct file *filp) 

{ 


struct block_device *bdev; 


int res; 
bdev = bd_acquire(inode); 


res = blkdev_get(bdev,filp->f_mode); 
} 


blkdev_get 函数 实际 上 直接 调用 了 _blkdev_get 函数 ， 后 者 是 个 非常 元 长 的 函数 。 在 前 面 对 
add disk 函数 的 讨论 中 已 经 看 到 过 这 个 国 数 ， 那 时 讨论 的 执行 路 径 是 整 块 ramhda 设备 
(partno=0), 下 向 通过 打开 ramhda 的 一 个 分 区 设备 ramhdal (partno=1) 来 讨论 _ blkdev get 
函数 的 另 一 条 执行 路 径 ， 以 使 读者 对 block device . gendisk 和 hd struct 之 间 的 关系 有 更 
加 清楚 的 认识 。 


__blkdev_get 首先 有 一 个 核心 的 调用 是 get_gendisk， 它 将 获得 一 个 gendisk 对 象 。 读 者 此 处 
应 该 记 住 ， 对 一 个 块 设备 及 其 可 能 的 者 十 分 区 设备 来 说 ，gendisk 对 象 只 有 一 个 ， 它 是 在 
add disk 函数 调用 链 中 被 加 入 到 bdev_map 哈 希 表 中 的 ， 这 个 调用 发 生 在 : 


<fs/block_dev.c> 


ee a a 


static int — blkdev get(struct block device *bdev, fmode_t mode, int for part) 
{ 

struct gendisk *disk; 

int partno; 


disk = get gendisk(bdev--bd dev, &partno); 
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} 


注意 “blkdev_get 函数 的 第 一 个 实 参 , 我 们 现在 正 处 在 打开 分 区 设备 /dev/ramhdal 的 上 下 文 
H, 所 以 它 是 对 应 ramhdal 设备 的 block device 对 象 , 因此 在 接 下 来 对 get_gendisk 调用 时 ， 
其 第 一 个 参数 bdev->bd_dev 应 该 是 分 区 设备 ramhdal 的 设备 号 ， 如 和 朱 ramhda 的 设备 与 是 
MKDEV(251, 0)， 那 么 此 时 的 bdev->bd dev 就 应 该 是 MKDEV(251, 1)， 此 处 bdev->bd_dev 
的 来 历 是 在 blkdev_open()>bd_acquire()>bdget()> iget5 locked(): 
<fs/inode.c> 
— struct inode *igetS locked(structsuper block *sb, unsigned longhashval, — 
int (*testYstruct inode *, void *), 
int (*set)(struct inode *, void *), void *data) 


old = find inode(sb, head, test, data); 
if (*old) { 
if (set(inode, data)) 
goto set failed; 


} 


以 上 代码 中 的 set(inode, data) 用 来 将 /dev/ramhdal 对 应 “devytmpfs” 廊 人 和 件 系统 的 inode 的 i. rdev 
赋值 给 新 生成 的 block device 对 象 的 bd dev 成员。 再 回 过 头 来 看 blkdev get 中 的 
get gendisk 调用 ， 此 时 是 用 分 区 设备 的 设备 号 到 bdev_map 中 查找 gendisk， 读 者 可 以 去 阅 
读 这 段 kobj lookup 函数 ， 它 一 定 会 找到 当初 在 add disk 调用 链 中 以 MKDEV(251, 0)fF 9 
设备 号 加 入 的 gendisk 对 象 。 这 里 没有 理由 忽略 对 get_gendisk HAMA, AAI ER 
快 就 会 将 ramhda 这 一 块 设备 及 其 分 区 设备 的 诸多 数据 结构 串联 起 来 。 
继续 讨论 _blkdev_get 函数 ， 在 获得 了 驱动 程序 用 add disk 添加 的 一 个 gendisk 对 象 之 后 ， 
它 将 进入 如 下 执行 路 征 : 

if ("'bdev--bd openers) | 

bdev--bd disk = disk; 


bdev--bd contains = bdev; 


if (!partno) { 

selse{ 
struct block device *whole; 
whole = bdget_disk(disk, 0); 


ret= _ blkdev_get(whole, mode, 1); 


bdev->bd_ contains = whole; 
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bdev->bd_part = disk get part(disk, partno); 


bd set size(bdev, (loff_t)bdev->bd_part->nr_sects << 9); 
j 


上 述 else 语句 中 ，whole 将 指向 gendisk 所 对 应 的 block device 对 象 ， 而 /dev/ramhdal 所 对 
应 的 block device Xj $& bdev 将 会 和 whole 以 及 分 区 对 象 建 立 关 联 。 而 对 _blkdev_get 的 调 

用 也 有 机 会 使 得 驱动 程序 中 的 block device operations 对 象 的 open 函数 被 调用 。 下 面 在 图 
^ 11-6 的 基础 上 再 给 出 一 张 体现 块 设备 及 其 上 分 区 设备 各 数据 结构 之 间 关 系 图 (图 11-7): 


block device 





gendisk + block_device 











disk part tbl 分 区 设备 





ME MD ms UU OUS NA GAL UN UO rm 


hd struct 


图 11-7 打开 一 个 分 区 设备 产生 的 关联 


可 以 看 到 主 设备 总 是 对 应 一 个 block_device 对 象 ， 这 个 对 象 在 add disk 中 产生 ; 而 对 于 分 
区 设备 ， 内核 在 检测 到 主 设备 上 的 一 个 有 效 分 区 时 ， 只 是 通过 add device 把 它 加 到 /dev 中 ， 
并 不 会 产生 block device 对 象 。 当 打开 一 个 分 区 设备 时 ， 将 产生 block device WR, 143} 
象 会 和 主 设备 对 应 的 block device 对 象 建立 关联 。 无 论 如 何 , block device MRF AY bd_disk 
成 员 总 是 指向 gendisk 对 和 象 ， 后 者 在 主 设备 与 可 能 的 者 干 分 区 设备 中 只 有 一 个 实例 。 


读者 可 以 看 到 ， 块 设备 的 内 核 框 架 实际 上 要 远 比 字符 设备 复杂 ， 对 内 核 中 完整 的 块 子 系统 
的 讨论 不 是 一 本 书 的 一 个 章节 可 以 胜任 的 任务 ， 好 在 从 驱动 程序 员 的 角度 来 说 ， 更 多 的 关 
注 点 是 在 与 设备 更 动 程序 相关 的 部 分 上 上。 如果 没有 对 内 核 代 码 强烈 好 奇 心 和 足够 的 耐心 ， 
无 论 用 如 何 通俗 的 语言 ， 块 设备 子 系统 对 我 们 而 言 依然 如 雾 里 看 花 。 写 作 本 书 的 一 个 目的 
是 希望 能 尽 可 能 帮助 读者 更 容易 读 懂 内 核 ， 此 处 我 们 对 块 设 备 文件 的 打开 似乎 依然 还 比较 
迷茫 ， 我 将 再 次 把 前 面 对 块 设备 打开 的 讨论 用 一 张 简 图 来 表示 ， 它 大 约 看 起 来 就 像 图 11-8 
那样 ; 
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用 户 态 程序 open("idevisda") 


而 = 












g mom blkdev open 


si 


block device 





dev to disk 


gendisk | | 


图 11-8 堪 设 备 文件 的 打开 


虽然 该 图 摘 述 打开 一 个 块 设备 的 大 体 流 程 ， 但 是 实际 上 我 们 也 以 及 从 中 发 现 block device 
与 gendisk 的 区 分 与 和 关联， 设备 驱动 程序 员 基 本 上 不 需要 与 block_device 以 及 “bdev” 文 件 
系统 打交道 ， 它 们 只 是 作为 内 核 中 块 设 备 驱 动 框架 上 的 设计 元 素 ， 驱 动 程序 员 更 多 的 是 要 
与 gendisk 打交道 。 


上 面 重点 讨论 了 块 主 设备 和 分 区 设备 打开 的 执行 流程 ， 在 此 基础 上 ， 本 应 该 再 讨论 一 下 打 
开 操 作 的 相反 过 程 : 如 何 关 闭 一 个 块 设备 。 不 过 鉴于 目前 章节 的 篇 幅 ， 我 决定 还 是 把 
blkdev close 这 个 函数 的 代码 分 析 留 给 读者 。 


11.11  blk init queue 


Ó A SOAP FR Bt IT ER BH HE SERERE LAER Crequest) 的 方式 发 送 给 块 设备 ， 为 了 
防止 请 求 的 丢失 ， 块 设备 需要 备 有 一 个 容纳 请 求 的 队列 。 因 此 在 块 设备 驱动 程序 中 ， 需 要 
在 内 核 的 帮助 下 来 为 当前 块 设备 申请 一 个 请 求 队列 ， 同 时 需要 提供 一 个 能 够 处 理 队 列 中 每 
个 请 求 的 设备 特定 的 处 理 函数 (下 文 简称 请 求 处 理 函 数 )。 具 体 到 块 设备 驱动 程序 ， 根 据 处 
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理 方 式 的 不 同 ， 目 前 有 两 种 方式 可 以 完成 当前 的 任务 ， 为 了 叙述 的 方便 ， 不 妨 将 其 简称 为 
request 和 make_request 方式 。 | 


本 节 讨 论 request 方式 ， 下 节 青 讨论 make request 方式 的 实现 。 采 用 request 方式 时 ， 块 设 
备 驱动 程序 需要 调用 blk init queue 来 为 当前 块 设备 分 配 一 个 请 求 队列 , 同时 安装 驱动 程序 
实现 的 请 求 处 理 函 数 。 在 调用 该 贰 数 时 ， 驱 动 程序 内 部 需要 实现 一 个 请 求 处 理 图 数 并 将 其 
作为 参数 传递 给 blk_init_queue， 驱 动 程序 实现 的 这 个 请 求 处 理 函 数 会 被 Linux. 内 核 的 块 通 
用 层 代 码 所 调用 ， 显 然 这 是 个 与 具体 设备 密切 相关 的 函数 ， 在 本 章 稍 后 部 分 会 继续 讨论 。 
blk init queue 国 数 源码 为 : 


B <block/blk- -COre.c> 


struct request_queue *blk i init t queue(request_ fn pes *rfn, spinlock - t*lock) 
{ 

return bik init queue node(rfn, lock, -1); 
} 


其 中 第 一 个 参数 的 类 型 为 request fn proc， 代 表 请 求 处理 函 数 ， 其 原型 定义 为 ; 
<include/linux/bikdev. h> 


ue ks A SS ae ine sci eS ie es ee a 


typedef void (request fn — (struct request. queue "qu 


这 个 请 求 处 理 函 数 只 有 一 个 参数 struct request queue *q。 在 继续 下 面 的 讨论 前 有 必要 先 介 
绍 一 下 该 参数 的 类 型 struct request queue， 内 核 用 这 个 结构 来 表示 一 个 请 求 队列 ; 


<include/linux/bikdev. h> 


te, ut 


struct request_queue 


{ 


一 ~- 


[* 
* Together with queue head for cacheline sharing 
+ 

struct list_head queue_head; 

struct request *last merge; 


struct elevator queue — *elevator; 


/* 
* the queue request freelist, one for reads and one for writes 
+; 

struct request list rq; 


request fn proc *request fn; 

make request fn *make request fn; 
prep rq fn *prep rq fn; 
unprep rq fn *unprep rq fn; 
merge bvec fn *merge bvec fn; 


softirq done fn *softirg done fn; 
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rq timed out fn *rq timed out fn; 
dma drain needed fn  *dma drain needed; 
lld busy fn *|]ld busy fn; 
j* 
* Dispatch queue sorting 
a 
sector t end sector; 
struct request *boundary rq; 
/* 
* Delayed queue handling 
"y 


struct delayed work delay_work; 
struct backing dev info backing dev info; 


/* 
* The queue owner gets to use this for whatever they like. 
* ll rw blk doesn't touch it. 
*/ 


void *queuedata; 


/* 
* queue needs bounce pages for pages above this limit 
a 


gfp t bounce gfp; 

/* 
* various queue flags, see QUEUE * below 
"j 

unsigned long queue flags; 

[* 


* protects queue structures from reentrancy. -> queue lock should 
* never be used directly, it is queue private. always use 
* ->queue lock. 
+ 
spinlock t _ queue lock; 
spinlock_t *queue_lock; 


{* 
* queue kobject 
"j 

struct kobject kobj; 
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[* 
* queue settings 
*/ 
unsigned long — nr requests;/* Max # of requests */ 
unsigned int nr congestion on; 
unsigned int nr congestion off; 


unsigned int nr batching; 


void *dma drain buffer; 
unsigned int dma drain size; 
unsigned int dma pad mask; 
unsigned int dma alignment; 


struct blk queue tag — *queue tags; 
struct list head tag busy list; 


unsigned int nr sorted; 
unsigned int in flight[2]; 


unsigned int Tq timeout; 
struct timer list timeout; 
struct list head — timeout list; 


struct queue limits limits; 
J* 

* sg stuff 

af 
unsigned int sg timeout; 
unsigned int sg reserved size; 
int node; 


#ifdef CONFIG BLK DEV IO TRACE 
struct bik trace — *blk trace; 
&endif 
pe 
* for flush operations 
-i 
unsigned int flush flags: 
unsigned int flush pending idx:1; 
unsigned int flush running idx:1; 
unsigned long ^ flush pending since; 
struct list head — flush queue[2]; 
struct list head flush data in flight; 
struct request flush rq; 


struct mutex sysfs lock; 
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#if defined(CONFIG BLK DEV BSG) 
struct bsg class device bsg, dev; 
#endif 


#ifdef CONFIG_BLK_DEV_THROTTLING 
/* Throttle data */ 
struct throtl data *td; 

#endif 

H 


很 复杂 的 一 个 数据 结构 ， 内 部 还 嵌入 了 不 少 重量 级 的 数据 结构 ， 不 过 目前 只 需 了 解 几 个 常 
用 的 成 员 即 可 : 


struct list head queue head 


双向 链表 元 素 ， 在 请 求 队列 中 作为 一 个 表 头 ， 将 所 有 加 入 队列 的 VO 请 求 组 建成 一 个 
双向 链表 。 链 表 中 的 每 个 元 素 都 是 一 个 request 类 型 ， 表 示 一 个 IO 请 求 对 象 。 内 核 为 了 对 
块 设备 的 LO 获得 最 好 的 性 能 ， 会 对 请 求 队列 中 的 VO 请 求 对 象 进行 重 排 或 者 是 合并 ， 以 
最 大 程度 减少 硬件 磁头 的 移动 距离 。 


request fn proc *request fn 


指 问 块 设备 驱动 程序 需要 实现 的 请 求 处 理 函 数 。 当 内 核 中 的 其 他 组 件 比 如 文件 系统 需 
要 从 底层 块 设 备 读 取 或 者 与 入 数据 时 ， 如 果 设 备 驱 动 程序 采用 的 是 request 方式 的 实现 ， 内 
核 会 调用 该 例 程 。 因 此 该 例 程 需要 针对 特定 的 设备 实现 底层 的 VO 操作 。 


make request fn *make request fn 


如 果 驱 动 程序 调用 blk init queue 来 处 理 请 求 ,那么 在 其 调用 链 中 ， 内核 会 为 当前 请 求 
队列 的 make request fn 提供 一 个 标准 的 实现 ”make request。 但 如 果 驱 动 程序 采用 所 谓 的 
make request 方式 实现 ， 则 驱动 程序 需要 调用 blk queue make request 为 此 处 的 
make request fn 提供 一 个 实现 ， 由 于 blk queue make request 函数 的 内 部 不 负责 创建 设备 
的 请 求 队列 ， 所 以 make request 方式 需要 驱动 程序 在 调用 blk queue make request 前 显 式 
地 为 设备 创建 一 个 请 求 队列 。 


unsigned long queue flags 


用 来 表示 当前 请 求 队列 的 状态 ， 状 态 标志 定义 在 include/linux/blkdev.h 中 ， 比 如 
QUEUE FLAG STOPPED. QUEUE FLAG PLUGGED 和 QUEUE FLAG QUEUED 等 。 


请 求 队列 中 还 提供 了 针对 队列 操作 的 其 他 一 些 操作 函数 ， 但 是 对 于 设备 驱动 程序 员 而 言 ， 
重点 在 于 了 解 上 面 的 request. fn 及 make_request_fn 如 何 被 内 核 通用 块 层 使 用 ， 队 列 的 其 他 
操作 在 内 核 中 都 有 一 套 标 准 的 函数 来 处 理 。 
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由 于 请 求 队列 主要 用 来 存放 针对 块 设备 的 WO 请 求 ， 每 个 请 求 都 是 一 个 struct request RA! 
的 对 象 ， 所 以 此 处 也 顺势 列 出 这 个 结构 的 定义 以 使 读者 对 VO 请 求 建立 直观 印象 ， 


<include/linux/blkdev.h> 
struct request { 
struct list_head queuelist; 
struct call single data csd; 


struct request_queue *q; 


unsigned int cmd flags; 
enum rq cmd type bits cmd type; 


unsigned long atomic flags; 
int cpu; 


/* the following two fields are internal, NEVER access directly */ 
unsigned int data len;/* total data len */ 
sector t sector; /* sector cursor */ 


struct bio *bio; 
struct bio *biotail: 


struct hlist_node hash; /* merge hash */ 
[* 
* The rb node is only used inside the io scheduler, requests 
* are pruned when moved to the dispatch queue. So let the 
* completion. data share space with the rb. node. 
*/ 
union { 
struct rb_node rb_node; /* sort/lookup */ 
void *completion_ data; 


E 


J* 
* Three pointers are available for the IO schedulers, if they need 
* more they have to dynamically allocate it. 
Wi 

void *elevator_private; 

void *elevator private2; 

void *elevator private3; 


struct gendisk *rq disk; 
unsigned long start time; 

#ifdef CONFIG BLK CGROUP 
unsigned long long start time ns; 
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unsigned long long io start time ns; /* when passed to hardware */ 


#endif 
/* Number of scatter-gather DMA addr+len pairs after 
* physical address coalescing is performed. 
sa | 
unsigned short nr phys segments; 


unsigned short ioprio; 


int ref count; 


void *special; /* opaque pointer available for LLD use */ 
char *buffer; /* kaddr of the current segment if available */ 


int tag; 
int errors; 


j* 
* when request is used as a packet command carrier 
Mi 

unsigned char cmd[BLK MAX CDB]; 

unsigned char *cmd; 

unsigned short cmd len; 


unsigned int extra len; /* length of alignment and padding */ 


unsigned int sense len; 
unsigned int resid len; /* residual count */ 
void *sense; 


unsigned long deadline; 
struct list head timeout list; 
unsigned int timeout; 

int retries; 


/* 
* completion callback. 
+ 
rq end io fn *end io; 
void *end io data; 


/* for bidi */ 
struct request *next rq; 
E 


上 述 struct request 结构 描述 了 发 送 给 块 设备 的 请 求 对 象 ， 


其 中 常用 的 成 员 有 : 
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struct list_head queuelist 
请 求 对 象 中 的 链表 元 素 ， 用 素 把 当前 请 求 加 到 struct blk plug 所 表示 的 链表 中 。 
struct request queue *q 
Fe TF) FES a BTE SONT FY 


unsigned int cmd_flags 
enum rq cmd type bits cmd type 


请 求 除了 表示 VO 操作 外 ， 还 可 以 是 一 些 控制 之 类 的 命令 。 上 述 成 员 描述 了 命令 的 类 
型 和 特征 。 


unsigned int data len 


sector t sector 


前 者 用 于 表示 当前 请 求 要 求 数据 传输 的 总 的 数据 量 ， 后 者 表示 当前 请 求 要 求 数据 传输 
的 块 设备 的 起 始 户 区 。 内 核 源码 注释 说 “NEVER access directly”， 驱 动 程序 可 以 使 用 内 核 
提供 的 函数 来 访问 这 两 个 变量 ，blk_rq_bytes 返回 _data_len AKA, blk_rq pos 返回 sector 
成 员 。 不 允许 直接 访问 ， 可 能 是 将 来 存在 变更 的 可 能 性 ， 那 么 内 核 应 该 保证 驱动 程序 使 用 
的 blk_rq_bytes 和 blk rq pos 在 这 种 情况 发 生 时 也 能 正常 工作 。 


struct bio *bio 
struct bio *biotail 


内 核 中 块 子 系统 在 将 一 个 bio 对 象 所 携带 的 信息 转 储 到 当前 请 求 对 象 中 ， 或 者 是 将 一 
个 新 的 bio 对 象 合并 到 当前 请 求 对 象 时 使 用 它们 , 请 求 对 象 通过 它们 将 这 些 bio 以 链表 的 形 
式 组 织 起 来 。 如 果 设 备 驱动 程序 使 用 内 核 提供 的 标准 _make_ request 函数 ， 那 么 在 驱动 程 
序 实现 的 请 求 处 理 函 数 中 将 可 以 访问 到 这 些 bio， 如 果 设 备 可 以 使 用 分 散 /聚集 的 LO 方式 ， 
那么 可 以 使 用 rq. for each. segment 来 遍历 这 个 bio 链表 , 典型 的 使 用 是 通过 blk rq map sg 
ARRA DMA 方式 建立 分 散 /聚集 映射 。 


介绍 完 请 求 队列 request. queue 和 请 求 request 数据 结构 , 下面 继续 讨论 blk init queue BA, 
其 内 部 调用 了 blk init queue node: 


<block/blk-core.c> 


Tm 


struct request queue * 
blk init queue node(request fn proc *rfn, spinlock t *lock, int node id) 
{ 


PSS SS SS SSS E E eee ee ee ee ee errr ee ee eee ee 


struct request queue *uninit q, *q; 


uninit_q = blk alloc queue node(GFP KERNEL, node id); 
if ('uninit q) 
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return NULL; 


q = blk init allocated queue node(uninit q, rfn, lock, node id); 
if (!q) 
blk cleanup queue(uninit, q); 


retum q; 
} 


函数 bIK init queue 将 返回 一 个 类 型 为 struct request queue 的 请 求 队列 的 指针 ， 函 数 的 第 一 
个 参数 rin 是 个 函数 指针 ， 设 备 驱动 程序 将 人 负责 实现 该 函数 并 在 调用 blk_init queue 时 将 其 
传递 给 rm， 由 rfn 来 处 理 块 设备 队列 中 的 请 求 。 


blk alloc queue node 的 主要 功能 是 在 前 面 提 到 的 blk_requestq_cachep 缓冲 池 中 分 配 一 个 
struct request queue 对 象 uninit q 并 做 一 些 初 始 化 工作 。 这 个 uninit g 还 需要 通过 
blk init allocated queue node 了 盟 数 的 进一步 处 理 才 能 返回 给 驱动 程序 使 用 。 关 于 等 待 队列 
更 实质 性 的 工作 则 放 在 blk init allocated queue node 函数 中 完成 ， 其 源码 为 ， 


<block/blk-core,.c> 


fats i 


struct request queue * 


blk init allocated queue node(struct request queue *q, request fn proc *rfn, 
spinlock t *lock, int node id) 
i 
if (!q) 
return NULL; 


q->node = node_id; 
if(blk init free list(q)) 


return NULL; 
q-7request fn 7 rfn; 
q-»prep rq fn = NULL; 
q->unplug_ fn = generic unplug device; 


q-^queue flags = QUEUE FLAG DEFAULT; 
q-"queue lock = lock; 


j* 
* This also sets hw/phys segments, boundary and size 
+; 

blk_queue_make_request(q, make request); 


q-7sg reserved size = INT MAX; 


/* 
* all done 
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gi 
if ('elevator init(q, NULL)) { 
blk queue congestion threshold(q); 
return q; 


j 


retum NULL; 
} 


函数 继续 对 传 进 来 的 请 求 队列 uninit_q 初始 化 , 包括 在 blk queue make request 函数 中 , 其 
中 我 们 看 到 设备 驱动 程序 中 实现 的 rf 被 赋值 给 了 请 求 队列 的 request fn 成 员 , 另外 我 们 要 
注意 blk_queue_make_request(q, ^ make requesb) 的 调用 ， 在 这 个 调用 中 ， 队 列 对 象 q 的 
make request fn 成 员 被 赋值 为 ”make_request， 后 者 是 内 核实 现 的 一 个 标准 阔 数 。 这 里 关 
注 这 个 调用 ， 是 因为 ”make_request 将 用 来 为 队列 q 产生 新 的 请 求 ， 而 且 最 终 会 调用 到 驱 
动 程序 中 实现 的 request fn 函数 ， 在 后 边 的 讨论 中 将 会 看 到 这 一 点 。 


与 请 求 队列 更 直接 的 工作 则 发 生 在 elevator init AAP, 我 们 很 快 束 会 知道 ,内核 中 的 块 子 
系统 对 请 求 队列 使 用 的 调度 算法 是 所 谓 的 “电梯 算法 "。elevator init 主要 用 来 为 前 面 产生 
的 请 求 队 列 q 选择 相应 的 调度 算法 ,当前 Linux 内 核 针 对 请 求 队列 共 提 供 了 三 种 调度 算法 ， 
我 们 并 不 关心 这 些 算法 的 实现 细节 , 不 过 了 解 一 下 内 核 在 elevator init 中 如 何 为 请 求 队列 选 
择 调度 算法 还 是 有 些 必 要 的 ， 


<block/elevator.c> 


int elevator init(struct request queue *q, char *name) 
{ 

struct elevator_type *e = NULL; 

struct elevator queue *eq; 

void *data; 


if (unlikely(q->elevator)) 
return 0; 


INIT LIST HEAD(&q--queue head); 
q-2»last merge = NULL; 

q->end sector = 0; 

q-2boundary rq = NULL; 


if (name) { 
e = elevator get(name); 
if (le) 
return -EINVAL; 
} 


if (le && *chosen elevator) { 
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e = elevator get(chosen elevator); 
if (le) 
printk(KERN ERR "I/O scheduler 9%s not found'n", 


chosen elevator); 


j 
if (le) { 
e = elevator get(CONFIG DEFAULT IOSCHED); 
if (le) f 
printk(KERN ERR 
"Default LO scheduler not found. " \ 
"Using noop. n"); 
e = elevator get("noop"); 
} 
} 


eq = elevator alloc(q. e); 
if (leq) 
return -ENOMEM; 


data — elevator inít queue(q, eq); 
if (!data) { 
kobject put(&eq-^kobj); 
return -ENOMEM; 


elevator attach(q, eq, data); 
return Ü; 
} 


elevator init 哨 数 主要 用 来 选择 VO 调度 器 同时 对 选 定 的 调度 器 进行 初始 化 ， 系 统 中 的 每 个 
调度 器 对 银 都 用 一 个 struct elevator type 数据 结构 来 表示 : 


«include/linux/elevator.h? 


mios RE Em Em p.m gpl ms mw me asd c E men ms Up Rl i aw am RS. ens ql Van e RR Rn Js. doc S Rs er 


struct elevator type 


i 
struct list_head list; 
struct elevator ops ops; 
struct elv fs entry *elevator attrs; 
char elevator name[ELV NAME MAX]; 
struct module *elevator owner; 
} 


struct elevator_type 中 定义 了 针对 当前 调度 器 对 象 的 一 组 操作 集 (struct elevator ops ops), 
成 员 list 用 来 将 当前 调度 器 对 象 加 到 一 个 链表 中 ，elevator_name 则 是 调度 器 的 名 称 。 
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函数 的 第 二 个 参数 用 来 表示 调度 器 的 名 称 ， 如 果 函 数 调用 者 指定 了 名 称 ， 那 么 将 通过 
elevator get 来 得 到 调度 器 的 类 型 。 内 核 将 所 有 支持 的 调度 器 放 在 一 个 全 局 的 elv_list 链表 
中 ， 这 样 elevator_get 只 需 遍 历 该 链表 就 可 以 找到 指定 名 称 的 调度 嚣 。 在 系统 初始 化 阶段 ， 
所 有 VO 调度 器 通过 调用 elv_register 将 自己 加 到 elv_list HAT. 


如 果 调 用 elevator init 时 没有 指定 名 称 , 那么 函数 会 检查 是 否 在 内 核 启动 命令 行 中 提供 有 调 
度 器 信息 ， 命 令 行 中 指定 调度 器 的 格式 为 “elevator=xxx”。 如 果 命 令 行 中 也 没有 指定 调度 
器 ， 那 么 内 核 将 从 CONFIG DEFAULT IOSCHED 中 获得 UO 调度 器 信息 ， 块 设备 默认 的 
调度 器 可 以 在 shell 底下 通过 命令 看 到 ， 比 如 对 于 块 ramhda， 通 过 下 面 的 命令 可 以 看 到 如 
下 结果 : 


root@AMDLinuxFGL:~# cat /sys/block/ramhda/queue/scheduler 
noop deadline [cfq] 


从 设备 驱动 程序 角度 出 发 ， 我 们 对 调度 器 的 技术 细节 不 再 做 更 多 的 讨论 。 至 此 ， 我 们 通过 
对 blk init queue 函数 的 调用 为 当前 的 块 设备 分 配 了 一 个 请 求 队列 , 并 且 为 该 请 求 队列 指定 
了 一 个 调度 器 ， 调 度 器 的 主要 任务 是 人 台 并 一 些 起 始 扇 区 相 邻 的 请 求 ， 目 的 是 使 磁盘 在 寻 址 
数据 时 所 经 过 的 路 径 最 短 。 所 有 的 这 一 切 使 得 块 设 备 进 一 步 工作 的 环境 准备 就 绪 ， 现 在 我 
们 开始 讨论 内 核 如 何 通 过 请 求 队列 向 设备 发 送 请 求 以 完成 系统 与 外 设 之 间 的 数据 传输 。 


11.12 blk_queue_make request 


如 果 块 设备 驱动 程序 中 调用 了 blk_queue make request, 实际 上 就 是 修改 了 内 核 为 请 求 队列 
q 提供 的 一 个 默认 的 make_reguest_fn FÉ XC make request, 换言之 , blk queue make request 
将 把 驱动 程序 目 己 实现 的 请 求 处 理 函 数 hook 到 q->make request fh 上， 这 就 成 了 前 面 提 到 
的 块 设备 驱动 程序 对 请 求 处 理 的 两 种 方式 之 一 的 make request 方式 。 驱 动 程序 如 果 采 用 这 
种 方式 ， 需 要 在 调用 blk_queue_make_request 函数 前 显 式 地 调用 比如 blk alloc queue 来 为 
自己 产生 一 个 请 求 队列 对 象 。 


blk queue make request 函数 为 块 设备 驱动 程序 的 请 求 队列 提供 了 另外 一 个 处 理 请 求 的 国 
数 ， 其 核心 代码 片段 为 : 


<block/blk- -Settings. c> 


SS Sm M Gd a4 do A o i eode m l y X O a r e e e e A O xm 


void blk queue make request(struct request queue *q, make request fn *mfn) 
{ 
/* 
* set defaults 
ky 
q->nr_requests = BLKDEV MAX RQ; 
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q->make_request_fn = mfn; 


blk queue congestion threshold(q); 
q->nr_batching = BLK BATCH REQ; 


! 


主 核心 的 操作 是 为 块 设备 请 求 队列 q 安装 一 个 请 求 处 理 函数 q->make_request_fn= mfn， 这 
个 函数 的 其 他 代码 设 定 了 请 求 队列 的 一 些 属性 。 


在 设备 驱动 所 在 的 模块 被 从 系统 中 和 抒 载 时 需要 把 请 求 队列 所 占 的 资源 返还 给 系统 ， 这 个 任 
务 由 blk cleanup queue 国 数 来 完成 ， 其 原型 如 下 : 


void blk cleanup queue(struct request queue *q); 


不 论 驱 动 程序 使 用 request 方式 还 是 make request 方式 来 处 理 请 求 ， blk cleanup queue 都 
该 在 模块 抒 载 时 被 调用 以 清除 所 占用 的 资源 。 


11.13 ”向 队列 提交 请 求 


当 内 核 文件 子 系统 需要 与 块 设备 进行 数据 传输 或 者 对 块 设备 发 送 控制 命令 时 ， 内 核 需 要 向 
对 应 块 设备 所 属 的 请 求 队列 发 送 请 求 对 象 。 这 个 任务 由 函数 submit. bio 来 完成 ， 其 原型 为 : 


- <block/blk-core.c> 

/— voidsubmit bio(intrw,structbio "bio; — 

内 核 在 需要 和 块 设备 进行 数据 传输 时 《比如 文件 系统 中 的 操作 ) 就 可 以 发 起 对 submit bio 
的 调用 。 通过 submit bio 的 原型 可 以 看 到 ， 该 函数 接受 两 个 参数 : 第 一 个 参数 rw 用 来 标识 
当前 请 求 是 读 还 是 写 ， 第 二 个 参数 是 一 个 struct bio 类 型 的 指针 ， 有 具体 指明 了 对 块 设备 发 送 
的 请 求 信息 的 细节 ， 驱 动 程序 负责 解读 这 个 结构 并 控制 实际 硬件 完成 对 应 的 请 求 。 关 于 
struct bio 结构 的 细节 ， 稍 后 有 独立 的 一 节 了 予以 讨论 。submit bio 总 是 会 在 需要 传输 数据 的 
设备 被 打开 之 后 才 可 能 被 调用 ， 而 通过 前 面 的 讨论 ， 一 个 块 设 备 〔 无 论 是 主 设备 还 是 分 区 
设备 ) 被 打开 时 ， 总 是 会 伴随 着 一 个 block device 对 象 bdev，bio 对 象 中 的 bi bdev WRF 
fale] bdev， 因 此 不 用 担心 由 submit. bio 所 发 出 的 请 求 不 会 到 达 目 标 设备 的 请 求 队列 中 。 


当 内 核 其 他 组 件 调用 submit bio 时， 必然 已 经 产生 了 一 个 struct bio 的 对 象 ， 此 处 我 们 并 不 
天 心 这 个 对 象 是 如 何 产 生 的 ， 我 们 关心 的 是 作为 当前 块 设备 的 驱 动 程序 ， 如 何 让 所 管理 的 
设备 完成 包含 在 请 求 中 的 数据 传输 。submit bio 函数 的 核心 代码 片段 为 ; 


<block/blk-core.c> 


————————————————-—----umuam m sm mom E OU o woz wozu uL:-------l:—----—-g o—go-amomo mo BomoG OR HBoLon RSOh Rok mom ————————————nmBmPBm'"n* TES 


void submit bio(int rw, struct bio *bio) 


{ 
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int count = bio sectors(bio); 


bio->bi_rw |= rw; 


generic_make_request(bio); 
} 


PAA AT BS rw 和 bio, UH] submit bio 的 当前 进程 用 rw 来 表示 所 请 求 数据 传输 的 方 
向 ， 数 据 传 输 的 其 他 信息 则 放 在 bio "P. submit bio 在 做 完 一 些 统计 等 操作 之 后 ， 调 用 
generic_make_request， 传 入 的 参数 为 bio 对 象 。generic_make_request 国 数 的 实现 是 ; 


<blocWblk-core.c> 
void generic make request(struct bio *bio) 
{ 


struct bio list bio. list on stack; 


if (current->bio list) { 
/* make request is active */ 
bio list add(current-»bio list, bio); 
return; 
} 
BUG_ON(bio->bi_next); 
bio list init(&bio list on stack); 
current-^bio list = &bio list on. stack; 
do { 
. generic make request(bio); 
bio = bio list pop(current--bio list); 
| while (bio); 
current-^bio list = NULL; /* deactivate */ 


} 


ERCP H if (current-2bio list)i& AJH KAI 5 gu E F2 EA OK IEE A, 如果 有 ， 则 只 
是 把 当前 的 bio 对象 加 到 current->bio_list 链 表 尾 部 就 返回 ,否则 调用 generic make request 
来 处 理 这 个 bio, FL do…while 循环 将 遍历 current->bio list 中 的 所 有 bio， 对 于 每 一 个 提 
取出 的 bio 都 会 调用 generic make request 来 处 理 。 一 个 要 注意 的 细节 是 ，bio list pop 再 
从 current->bio_list 链表 的 头 部 pop 出 一 个 bio RIA, 会 将 bio->bi next 置 为 NULL, 然后 
六 巴 generic make request. 


. generic make request 中 一 些 核心 的 函数 调用 为 ， 


<block/blk-core.c> 


——————————————— m x ee um ZA esum emo RA mS ey m ey cR Sep. ms Cms no Tus 


static inline void — generic make request(struct bio *bio) 
{ 


a Se Ee ae 


struct request queue *q; 


int ret, nr sectors = bio_sectors(bio); 
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if(bio check eod(bio, nr. sectors)) 
goto end 10; 
do { 
q = bdev get queue(bio-^bi bdev); 


blk partition remap(bio); 


ret = q-^make request fn(q, bio); 
}while(ret); 
end io: 
bio_endio(bio, err); 


} 


函数 首先 作 一 些 安全 检查 ，bio_sectors(bio) 获 得 本 次 请 求 需要 传输 的 数据 量 总 的 扇 区 数 ， 因 
为 块 设备 的 扇 区 数 总 是 有 限 大 小 ， 如 果 要 求 传输 的 肩 区 数 大 于 目标 设备 拥有 的 扇 区 数 ， 
bio check eod 将 会 结束 这 次 请 求 。 之 后 ， 函 数 调用 bdev_get_queue(bio->bi bdev) 来 获得 当 
前 请 求 目标 设备 的 请 求 队列 ， 因 为 bio-»bi bdev 总 是 指向 目标 设备 的 block device HK, 
所 以 bio->bi_bdev->bd_disk 将 指向 gendisk 对 象 ， 因 此 也 就 找 了 设备 的 请 求 队 列 gq = 
gendisk->queue。 我 们 知道 ， 不 论 是 主 设备 还 是 由 此 衍生 出 来 的 分 区 设备 ， 它 们 都 共享 同一 
个 gendisk 对 象 ， 因 此 也 就 共享 同一 个 请 求 队列 。 随 后 的 blk_partition remap(bio) 用 来 将 针 
对 分 区 设备 的 bio 调整 为 针对 整个 块 设备 ， 原 因 是 当 打 开 一 个 分 区 设备 比如 ramhdal 并 从 
其 第 0 扇 区 开始 进行 数据 传输 时 ，bio->bi sector 为 0， 刚 刚 提 到 分 区 设备 和 主 设备 都 适用 
同一 个 请 求 队 列 ， 所 以 需要 将 其 调整 到 整 块 设备 范围 上 的 寻 址 扁 区 ， 理 则 将 读 取 主 设备 
ramhda 的 第 0 个 局 区 ,而 不 是 ramhdal 的 第 0 个 扇 区 .明白 了 这 些 , 理解 blk_partition remap 
函数 的 实现 原理 就 很 简单 了 ， 它 利用 目标 设备 的 bdev 对 象 中 的 bd. part 成 员 来 获取 当前 分 
区 设备 在 整 块 设备 中 的 起 始 肩 区 : 

struct hd struct *p = bdev->bd_part; 


bio->bi_sector += p->start_sect; 
bio->bi_bdev = bdev->bd_contains; 


最 后 一 行 代码 将 当前 bio 对 象 所 指向 的 分 区 设备 的 bdev 变 成 了 主 设备 的 bdev, 读者 可 参考 
图 1]1-7 。 


. generic make request 最 后 调用 请 求 队列 的 make request fn 函数 ， 
ret = q->make_request_fn(q, bio); 
如 朵 驱动 程序 使 用 blk init queue 来 分 配 并 初始 化 请 求 队列 ， 那 么 由 bik init queue 发 起 的 


调用 链 中 将 为 请 求 队列 q 的 成 员 make request fn 赋值 ”make request， 后 者 是 由 内 核 提供 
的 一 个 函数 ， 其 核心 操作 代码 片段 为 ; 


*block/blk-core.c» 
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static int make . request(struct request queue *q, struct bio *bio) 
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struct request *req; 
struct blk plug *plug; 


if (attempt plug merge(current, q, bio)) 
goto out; 


el ret = elv merge(q, &req, bio); 
if (el ret — ELEVATOR BACK MERGE) ( 
if (bio attempt back merge(q, req, bio)) | 
if (l'attempt back merge(q, req)) 
elv merged request(q, req, el ret); 
goto out unlock; 


} 
} else if (el ret — ELEVATOR_FRONT_MERGE) | 
if(bio attempt front merge(q, req, bio)) { 
if (attempt front merge(q, req)) 
elv merged request(q, req, el ret); 
goto out unlock; 


j 
get rq: 


init request from bio(req, bio); 


plug = current->plug; 
if (plug) { 


lelse{ 
__blk_run_queue(q); 


j 


out unlock: 
spin unlock irq(q-7queue lock); 
out: 
return 0; 
} 
函数 的 核心 思想 是 ， 当 一 个 新 的 bio 对 象 (代表 外 部 组 件 对 块 设备 的 一 个 请 求 ) 进来 时 ，LO 
调度 器 要 进行 判断 并 采取 行动 : 如 果 该 bio 对 象 无 法 与 当前 请 求 队列 q 中 其 他 的 某 些 请 求 
req 合并 ， 那 么 将 为 该 bio 对 象 产生 一 个 新 的 请 求 对 象 并 加 入 队列 ， 代 码 进入 get_rq 标识 的 
区 域 中 。 如 果 该 bio 对 和 象 可 以 与 队列 中 现 有 的 某 些 请 求 对 和 象 req 进行 合并 ， 比 如 说 ， 当 前 队 
列 q PAT req 对 象 , 希望 从 块 设备 的 第 0 个 肩 区 起 连续 读 8 个 扇 区 ,而 新 进来 的 bio 中 的 
数据 表明 它 希望 从 块 设备 的 第 8 个 扁 区 起 连续 读 10 SK, 那么 这 就 显然 可 以 将 队列 中 的 
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这 两 个 请 求 予 以 合并 而 无 须 产 生 一 个 新 的 请 求 对 象 ， 这 种 情况 下 只 需 req->_data_len += 
bio->bi_size 即 可 。 当 然 Linux 内 核 中 请 求 队列 的 实现 细节 不 是 那么 简单 ， 因 为 有 太 名 的 因 
” 素 需 要 考虑 ， 但 是 因为 关于 这 部 分 的 大 量 内 容 都 应 该 归结 到 描述 Linux 内 核 机 制 的 书 里 ， 
所 以 对 于 设备 驱动 程序 而 言 ， 我 们 只 需 关 注 与 设备 驱动 程序 关系 密切 的 那 部 分 就 可 以 了 。 


上 其 体 说 来 , 其 中 elv merge 试图 通过 块 子 系统 的 IO 调度 器 对 请 求 进行 重新 排列 ， 以 最 大 程 
度 减 少 磁 盘 磁头 移动 的 距离 。init_ request from bio 则 将 新 进入 的 bio MRM “(A BHF 
到 请 求 对 象 req 中 ， 所 以 我 们 在 前 面 ramdisk 的 request 版 本 看 到 ， 驱 动 程序 中 实现 的 
ramhd req func 请 求 处 理 函 数 只 是 操作 req 对 象 中 记录 的 读 / 写 依 息 ( 比 如 读 / 写 的 起 始 扇 区 、 
读 / 写 的 数据 量 的 大 小 等 )， 这 是 因为 内 核 为 请 求 队列 对 象 g 中 的 make. request fn 函数 指针 
成 员 提 供 的 _make_ request 在 最 终 调 到 设备 驱动 程序 中 的 请 求 处 理 函 数 时 ,已 经 将 bio 的 信 
息 转 储 到 了 reg 中 。 但 如 果 设 备 驱 动 程序 中 调用 blk queue make request 函数 来 为 请 求 队列 
中 的 make request fn 国 数 指针 成 员 提供 一 个 新 的 make request 函数 , 那么 在 驱动 程序 自己 
的 请 求 处 理 函 数 中 就 必须 自己 处 理 每 个 bio 对 象 , 正如 我 们 在 ramdisk 的 make request 版 本 
中 看 到 的 那样 。 


在 ”make request 的 最 后 对 _blk run queue 函数 的 调用 4 中 ， 我 们 看 到 了 request fn proc 
被 调用 到 ， 也 就 是 设备 驱动 程序 中 提供 的 请 求 处 理 函 数 ， 


«block/blk-core.c» 
void  blk run queue(struct request queue *q) 
{ 
if (unlikely(blk queue stopped(q))) 
return; 


q->request fn(q); 
} 


函数 中 的 blk queue stopped 用 来 检查 请 求 队列 对 象 q BY queue flags 标志 , 以 判断 当前 请 求 
队列 的 状态 。 内 核 中 定义 了 一 些 宏 来 检查 请 求 队列 对 象 q 中 的 queue flags trax, HEW: 
Tineudelinu/bikdevh» OO 
#define blk queue tagged(q) test bit(QUEUE FLAG QUEUED, &(q)-^queue flags) 
#define blk queue stopped(q) test bit(QUEUE FLAG STOPPED, &(q)-7queue flags) 
#define blk queue nomerges(q) — test bitt(QUEUE FLAG NOMERGES, &(q)-^queue flags) 


经 过 前 面 的 讨论 ， 我 们 看 到 当 其 他 内 核 组 件 (典型 的 如 文件 系统 ) 通过 submit bio 来 向 块 
设备 提 区 数据 传输 请 求 时 ， 根 据 驱 动 程序 对 请 求 处 理 函 数 设 计 的 不 同行 为 (也 即 通常 说 的 


4 为 了 使 块 子 系统 的 VO 调度 机 制 有 机 会 对 请 求 队 列 中 的 请 求 进行 合并 与 重 排 ， 并 非 每 次 submit, bio 都 会 使 得 驱动 程序 
中 的 请 求 处 理 函 数 得 以 调用 ， 内 核 有 男 外 的 机 制 来 确保 请 求 队列 可 以 积 早 一 定数 量 的 请 求 后 再 对 以 处 理 ， 
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request 和 make request 方式 )， 当 这 个 请 求 最 终 达 到 驱动 程序 的 请 求 处 理 函 数 时 ， 读 / 写 请 
求 参数 出 现 的 形式 会 有 变化 ， 因 此 设备 驱动 程序 必须 有 和 针对 性 地 予以 处 理 , 图 11-9 显示 了 
这 一 过 程 : 


submit_bio(rw, bio) 








generic make request(bio) 


bio = 
TE Sun TT 驱动 程序 实现 的 
请 求 处 理 函数 





-s Å ee 


__make_request 
| q lo 






‘N. "S 


— | 


-— o a * 
blk init queue Ba 
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经 过 前 面 的 讨论 , 我 们 现在 已 经 可 以 分 清 驱 动 程序 用 request 和 make request 两 种 方式 实现 
请 求 处 理 的 区 别 了 : 当 驱 动 程序 采用 request 方式 时 ， 外 部 组 件 发 送 给 它 的 bio MARFA 2C 
被 内 核 提 供 的 函数 “make request 拦截 并 处 理 ， make request 使 用 了 复杂 的 逻辑 来 试图 优 
化 目标 设备 请 求 队列 中 的 各 个 请 求 ， 以 最 大 程度 提升 系统 性 能 。_make_request 在 最 终 调 
用 驱动 程序 的 请 求 处 理 函 数 前 , 会 将 bio 对 象 中 的 相关 数据 转 储 到 请 求 对 象 req 中 , 然后 把 
它 作为 参数 传递 给 请 求 处 理 函 数 ， 所 以 后 者 利用 传 入 的 req 对 象 便 可 知道 当前 请 求 的 所 有 
信息 。 当 驱动 程序 使 用 make request 方式 时 , Sc Bos LAA Ke B GSEHLBS eee CLE 
如 ramdisk 例子 中 的 ramhd make request) 取代 了 系统 的 _make request 函数 ， 这 种 情形 下 
除 缺 少 了 块 子 系统 VO 调度 器 的 参与 之 外 【当然 驱 动 程序 可 以 自己 加 入 对 它们 的 支持 ， 但 
是 这 种 情况 极其 罕见 )， 驱 动 程序 实现 的 make request fn 函数 将 直接 面 对 bio， 而 不 是 请 求 
对 象 req， 因 此 需要 显 式 地 操作 bio 对 象 。 


因此 ， 在 内 核 中 ， 绝 大 多 数 块 设备 的 驱动 程序 使 用 request FA, 而 只 有 少量 的 驱动 程序 使 
用 make request 方式 , 比如 内 核 源 码 中 提供 的 ramdisk 源码 位 于 drivers/blockybrd.c) 和 loop 
等 设备 。 但 是 对 两 种 实现 方式 的 真正 决策 依据 应 该 来 自 于 要 驱动 的 设备 本 喘 ， 侧 不 是 内 核 
代码 的 统计 量 ， 比 如 ramdisk 这 种 设备 ， 如 果 使 用 request 方式 ， 意 味 着 将 启用 块 设备 子 系 
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统 请 求 重 排 及 合并 机 制 ， 这 对 ramdisk 而 言 显 得 有 些 浪费 ， 所 以 还 是 直接 接受 请 求 比较 好 。 


11.14 块 设备 的 请 求 处 理 函 数 


系统 中 驱动 程序 是 了 解 底层 设备 的 唯一 组 件 ， 因 此 高 层 产 生 的 请 求 最 终 必 然 转 发 到 设备 蝶 
动 程序 中 予以 处 理 ， 为 此 块 设 备 驱动 程序 需要 实现 一 个 处 理 函 数 ， 正 如 前 面 讨论 过 的 ， 驱 
动 程序 有 两 种 方式 可 以 达成 该 目的 。 此 处 仅 讲述 一 下 request 方式 ， 至 于 make request 方式 
的 处 理 函 数 ， 读 者 可 目 行 参考 本 章 开始 部 分 给 出 的 ramdisk 代码 。 


request 处 理 函 数 的 原型 前 面 已 经 提 过 ， 这 里 再 重复 一 下 : 


typedef void (request fn proc) (struct request queue *q); 


KAMEREN ERR TS BE a STAR BA FUSE qs 前 面 的 ramdisk 实例 展示 了 块 设备 驱 
动 程序 中 一 个 典型 的 请 求 处 理 函 数 : 


void ramhd req func (struct request queue *q) 


{ 
struct request *req; 


req = blk_fetch_request(q); 
while (req) { 
start = blk rq pos(req); // The sector cursor of the current request 
pdev = (RAMHD DEV *)req->rq_disk->private_data; 
pData = pdev->data; 
addr = (unsigned long)pData + start * RAMHD SECTOR SIZE; 
size = blk rq cur bytes(req); 
if(rq data dir(req) == READ) 
memepy(req->buffer, (char *)addr, size); 
else 


memcpy((char *)addr, req->buffer, size); 


if(! blk end request cur(req, 0)) 
req = blk fetch request(q); 


} 


该 函数 的 主体 用 一 个 while 循环 来 对 请 求 队列 q 中 的 请 求 进行 处 理 ，blk_fetch request 用 来 取 
fd q 中 的 第 一 个 请 求 对 象 req。 接 下 来 的 rq. data. dir(req) 用 来 判断 当前 请 求 req 上 的 数据 传输 
方 癌 。 在 驱动 程序 把 当前 请 求 处 理 完毕 后 ， 调 用 _blk_end_request_cur 来 结束 当前 请 求 。 


正如 前 面 所 讲 ， 块 设备 的 请 求 队列 有 两 种 状态 ， 用 Linux 内 核 代码 中 的 术语 分 别 是 plug 状 
态 和 空闲 状态 。 当 一 个 请 求 队列 处 于 空闲 状态 时 ， 其 中 的 请 求 将 会 被 处 理 ， 而 当 一 个 队列 
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处 于 plug 状态 时 ， 队 列 中 的 请 求 并 不 会 筱 处 理 ， 但 是 允许 新 的 请 求 进入 队列 ， 这 就 使 得 内 
核 有 机 会 合并 多 个 请 求 为 一 个 大 的 请 求 以 提高 系统 性 能 。 


从 设备 驱动 程序 的 角度 出 发 ， 我 们 应 该 熟悉 内 核 提 供 的 那些 对 请 求 队列 的 操作 函数 。 


11.15 bio 结构 


通过 上 面 的 讨论 我 们 知道 ， 欣 设备 驱动 程序 的 核心 是 对 来 自 外 部 的 数据 传输 请 求 进行 处 理 ， 
而 这 个 过 程 中 最 核心 的 数据 对 象 则 是 bio， 它 在 外 部 组 件 与 块 子 系统 (包括 块 设备 驱动 程序 ) 
之 加 来回 流动 ， 将 要 读 / 写 的 数据 带 来 带 去 。 如 同 公司 的 班车 ,在 张江 集 电 港 与 广 兰 路 地 铁 站 
之 间 来 回 穿梭 ， 一 批 目光 采 湾 的 工程 师 被 送 走 了 ， 一 批 蓬 头 垢 面 的 工程 师 被 带 来 了 ， 如 此 往 
B. 构成 了 现实 世界 的 一 部 分 。 所 以 没有 任何 理由 不 花 点 篇 幅 去 介绍 一 下 struct bio 结构 , bio 
对 象 包括 了 块 设备 执行 一 个 请 求 所 需要 的 所 有 信息 , 即便 是 req HR, 我 们 在 前 面 已 看 到 了 ， 
它 所 携 市 的 天 于 数据 传输 的 信息 也 是 由 bio 转 储 而 来 。 而 且 通 过 bio 对 象 ， 块 设备 驱动 程序 
在 执行 VO 的 过 程 中 也 无 须 与 创建 这 个 bio 对 象 的 用 户 进程 相关 联 。 另 外 ，bio 对 象 只 表示 从 
东 记 区 开始 的 若干 连续 扇 区 的 数据 空间 ， 不 会 表示 分 散 的 扇 区 数据 块 。 该 结构 的 定义 为 : 


«include/linux/bio.h? 


struct bio { 
sector t bi sector; /* device address in 512 byte sectors */ 
struct bio *bi next; /* request queue link */ 
struct block device *bi bdev; 
unsigned long bi flags; /* status, command, etc */ 
unsigned long bi rw; /* bottom bits READ/WRITE, top bits priority*/ 
unsigned short bi vent; /* how many bio vec's */ 
unsigned short bi idx; /* current index into bvl vec */ 


/* Number of segments in this BIO after 
* physical address coalescing is performed. 


"i 
unsigned int bi phys segments; 
unsigned int bi size; /* residual L/O count */ 
/* 


* To keep track of the max segment size, we account for the 
* sizes of the first and last mergeable segments in this bio. 


mi 
unsigned int bi seg front size; 
unsigned int bi seg back size; 
unsigned int bi max vecs; /* max bv] vecs we can hold */ 
unsigned int br comp cpu; — /* completion CPU */ 


atomic t — bi cnt; /* pin count */ 
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struct bio vec *bi ijo vec; /* the actual vec list */ 
bio end io t *bi end io; 

void *bi private; 

bio destructor t *bi destructor;  /* destructor */ 


J* 
* We can inline a number of vecs at the end of the bio, to avoid 
* double allocations for a small number of bio vecs. This member 
* MUST obviously be kept at the very end of the bio. 
*/ 
struct bio_vec bi_inline_vecs[0}; 


}; 
其 中 一 些 重要 的 成 员 如 下 : 


sector t bi sector 
指定 了 本 次 传输 的 起 始 遍 区号。 
struct bio *bi next 


指向 当前 bio 的 下 一 个 对 象 。 
struct block device *bi_bdev 


与 请 求 相 关联 的 块 设备 对 象 指 针 ， 该 成 员 将 引导 submit bio 将 请 求 发 往 那个 设备 的 请 
求 队列 。 


unsigned short bi_vent 
bi jio vec 数组 中 元 素 的 个 数 。 
unsigned short bi_idx 
当前 处 理 的 bi io vec 数组 元 素 索 引 。 
unsigned int bi size 
本 次 请 求 需 要 传输 的 数据 总 量 ， 单 位 为 字 节 《局 区 大 小 的 整数 倍 )。 
struct bio_vec *bi_io_vec 


指向 一 个 IO 向 量 的 数组 , 数组 中 的 每 个 元 素 对 应 一 个 物理 内 存 页 帧 的 page XY. struct 
bio vec 的 定义 如 下 : 


<jnclude/linux/bio.h> 


1 


struct bio vec { 


ra 
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struct page *bv_page; 

unsigned intbv len; 

unsigned intbv offset; 

È 

其 中 , bv page 指向 用 于 数据 传输 的 页 面 所 对 应 的 struct page IH, bv len 表示 当前 要 传输 
的 数据 大 小 ,bv_offset 表示 数据 在 页 面 内 的 偏 称 量 (在 非 整 页 传输 的 情况 下 ), 通 过 bi io vec 
数组 ， 我 们 看 到 一 个 特定 的 请 求 所 需要 传输 的 数据 可 能 分 布 在 内 存 的 不 同 页 面 中 ， 换 句 话 
说 驱动 程序 处 理 的 一 个 块 设备 的 VO 请 求 可 能 会 使 用 不 止 一 个 数据 缓冲 区 ， 这 些 缓冲 区 散 
布 在 整个 内 存 中 。 


实际 上 ，bio 所 形成 的 链表 常常 存在 于 请 求 request 的 对 铺 之 中 ， 这 个 链表 是 由 块 子 系 统 的 
VO 调度 器 对 bio 进行 合并 的 结果 。 图 11-10 显示 了 bio 数据 结构 的 构成 以 及 与 request 的 关 
系 : 


biotall 


BIO BIO 
| bi sector bi sector 
bi size 
bi io vec 
bi end io = bi end io 





struct page 





11-10 struct bio 


正如 读者 所 猜想 到 的 那样 ， 内 核 为 驱动 程序 操作 这 些 BIO 的 成 员 提供 了 一 组 接口 函数 ， 为 


了 代码 的 易 维 护 性 与 一 致 性 起 见 ， 设 备 驱动 程序 员 应 该 在 程序 中 使 用 这 些 函 数 ， 其 中 驱动 
程序 中 常用 的 一 些 宏 及 函数 如 下 : 
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O bio for each segment Æ 


该 宏 用 来 遍历 BIO 成 员 中 的 bi io vec 数组 中 的 各 个 bio_vec 元 素 ， 其 定义 的 形式 为 : 


«include/linux/bio.h» 


A 


#define bio for each segment(bvl, bio, i) \ 
__bio_for_each_segment(bvl, bio, i, (bio)}->bi_idx) 


在 这 个 宏 的 三 个 参数 中 , bvl 指向 遍历 过 程 中 当前 的 struct bio. vec X12, bio 是 整个 请 求 bio 
对 象 的 指针 ，i 对 应 当前 的 struct bio vec 对 象 的 序号 。 


下 面 是 ramdisk 例子 使 用 bio for each segment 的 一 段 示 例 代 码 : 


bio for each segment(bvec, bio, i) { 
pBuffer = kmap(bvec-^»bv page) + bvec->bv_ offset; 
switch(bio data dir(bio)) 
{ 
case READ: 
memcpy(pBuffer, pRHdata, bvec->bv_len); 
flush dcache page(bvec-»bv page); 
break; 
case WRITE: 
flush, dcache page(bvec-—bv page); 
memcpy(pRHdata, pBuffer, bvec--bv len); 
break; 
default: 
kunmap(bvec-^»bv page); 
goto out; 
} 
kunmap(bvec->bv_page); 
pRHdata += bvec->bv_len; 
} 


对 于 每 个 struct page 对象， 代码 用 kmap 来 获得 其 所 对 应 的 虚拟 地 址 。 
O bio iovec idx(bio, idx) 


«include/linux/bio.h» 


人 


#define bio_iovec_idx(bio, idx) (&((bio)-2bi io vec[(idx)])) 
该 宏 用 于 得 到 bi_io_vec 数组 中 第 idx 个 元 素 对 象 的 指针 。 
© bio iovec(bio) 


<include/inux/bio.h> 


Oe ee a ee 


#define bio_iovec(bio) bio iovec idx((bio), (bio)->bi_idx) 


该 宏 用 于 得 到 当前 正在 处 理 的 (由 bi idx 做 索引 值 ) bi io vec 数组 元 素 的 指针 ， 也 即 当前 
缓冲 区 对 象 。 
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O bio page(bio) 


.*include/linux/bio. h» 


oum Lm GR G- asm En dai mw je Rev Em ume ne a CORE Cae a oen as de RS SC. Ua Aa ae ws CUR UR 


#defi ne bio page(bio) bio | jovec((bio))-»bv page 


zo ke ED ED CGHH EM GF OG: Gm UC G^ CED oo» Gm 4 Rho CND GRSONG ORO RR ORS me me be (Roo db RS Go 4A E GP om hoo GE Go GEO MM Roto moo 


宏 用 于 获得 当前 正在 处 理 的 bi io. vec 数组 元 素 的 页 面 对 象 page- 
QO bio offset(bio) 


«include/linux/bio.h? 


ME ui meus m p mb ome uk d. ÁO meme ies Pun Em mw GA) VE EE Ee Rr caer et ses Rm V ges ues Roc Ar JC NV e (CR ee dcs acc Rs eee 


#define bio offset(bio) bio | iovec((bioy)-»bv ， offset 
仿 宏 用 于 获得 当前 缓冲 区 的 偶 移 量 。 


Q bio sectors (bio) 


<include/linux/bio.h> 


#define bio. sectors(bio) ((bio)-»bi s size >> > 9) 
该 宏 用 于 获得 当前 bio 对 象 要 传输 的 扇 区 总 数 。 


Q bio has data 24 


该 函数 用 于 判断 一 个 bio 对 象 是 否 携带 有 数据 , 在 内 核 中 是 允许 空 的 bio 对 象 存 在 的 。 其 定 
XT: 


«include/linux/bio.h» 


wee eee eee SRS a n momo omo no moro am am i08 mo wm mo ho mo gm Lo n Gu o Roo |a omo Oo mo momo c n 4 o cA o quo moW Ea 7 oL OLOR Odo cmo od E —-—-—-----—A4 


static inline int bio has data(struct bio *bio) 
{ 


retum bio && bio->bi io vec !- NULL; 
} 


O bio data AŽ 


ASOR [B] 3 RU RE PPS BL ee HE, HEK: 


<include/linux/bio.h> 


了 有 


static inline void *bio_data(struct bio *bio) 


{ 
if (bio->bi_vent) 
return page address(bio page(bio)) + bio offset(bio); 
return NULL; 
} 


O bio kmap irq 5 bio kunmap irq 


<include/linux/bio.h> 


一 


static inline char * bio kmap irq(struct bio *bio, unsigned short idx, 
unsigned long *flags) 
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{ 


return bvec_kmap_irq(bio_iovec_idx(bio, idx), flags); 


} 
#define _ bio kunmap irq(buf, flags) bvec kunmap irq(buf, flags) 


#define bio kmap irq(bio, flags) | 
. bio kmap irq((bio), (bio)->bi_idx, (flags)) 
#define bio kunmap irq(bufíflags) ^ bio kunmap irq(buf, flags) 


无 论 bio 中 携带 的 页 面 地 址 来 自 低 端 内 存 还 是 高 端 内 存 ， 该 函数 都 可 以 得 到 其 内 核 虚 拟 地 
址 ， 但 是 bvec_kmap irq 在 内 部 实现 时 ， 对 于 高 端 地 址 (HIGHMEM )， 由 于 在 通过 
kmap atomic 做 映射 前 使 用 了 local_irq_save， 所 以 在 bio_kmap_irq 与 bio kunmap irq 之 间 
的 代码 不 应 该 重新 司 用 中 断 。 


11.16 “本章 小 结 


在 Linux 下 共有 三 种 类 型 的 设备 ， 分 别 是 字符 型 设备 、 块 设备 与 网 络 设备 。 本 章 讨论 了 其 
中 的 块 设备 驱动 程序 及 其 相关 的 外 部 接口 ， 其 中 包括 块 设备 相关 的 数据 结构 以 及 与 文件 系 
统 的 交互 等 。 对 于 块 设 备 驱动 程序 而 言 ， 其 核心 功能 是 要 控制 块 设备 进行 数据 传输 以 实现 
系统 与 块 设 备 的 数据 传输 。 


与 字符 型 设备 驱动 程序 不 同 ， 内 核 为 块 设备 驱动 程序 做 了 更 多 幕后 的 工作 ， 上 层 对 块 设备 
的 数据 传输 指令 以 请 求 request 的 方式 放 入 块 设备 所 拥有 的 请 求 队列 中 , 驱动 程序 需要 遍历 
该 请 求 队 列 以 完成 实际 的 数据 传输 指令 。 内 核 可 以 在 需要 的 地 方 调用 submit. bio 来 向 某 一 
块 设备 提交 一 个 请 求 ， 请 求 将 被 放 入 与 该 块 设备 对 应 的 一 个 请 求 队列 中 ， 设 备 驱动 程序 负 
贡生 成 设备 的 请 求 队列 。 内 核 为 了 提升 块 设备 VO 性 能 ， 提 供 了 几 个 VO 调度 器 用 来 对 请 
求 队列 中 的 请 求 进行 调度 ， 内 核 在 初始 化 阶段 会 根据 实际 情况 选择 其 中 一 个 调度 器 ， 通 过 
合并 或 者 重 排 请 求 队列 中 的 请 求 ， 块 设备 可 以 最 大 程度 减少 磁头 移动 的 距离 并 试图 一 次 硬 
件 操作 能 同时 完成 多 个 请 求 。 


块 设备 驱动 程序 可 以 充分 利用 内 核 中 块 子 系统 所 提供 的 这 些 UO 调度 机 制 ， 驱 动 程序 这 么 
做 的 时 候 ， 需 要 提供 一 个 请 求 处 理 函 数 用 于 处 理 请 求 队列 中 的 每 个 请 求 。 由 于 高 层 的 UO 
调度 的 存在 ， 内 核 可 以 将 多 个 bio 合并 到 一 个 request 对 象 中 ， 所 以 请 求 处 理 函 数 可 以 根据 
实际 需要 灵活 处 理 这 些 bio， 实 际 的 块 设备 驱动 程序 中 常常 使 用 DMA 在 bio 提供 的 缓冲 区 
和 目标 块 设备 之 间 传 输 数据 。 


当然 块 设备 驱动 程序 也 可 以 绕 开 VO 调度 器 , 此 时 需要 通过 blk queue make request 函数 将 
请 求 队列 的 make request. fn 指针 指向 自己 实现 的 请 求 处 理 函 数 ， 驱 动 程 序 这 样 做 的 时 候 ， 

实际 是 用 上 自己 实现 的 请 求 处 理 函 数 取 代 了 内 核 提 供 的 _make request 函数 ， 因 为 VO 调度 
am HY SCALA LH A AER ZE_ make request 函数 中 ， 所 以 这 种 情形 下 相当 于 驱动 程序 实现 的 请 
求 处 理 函 数 直 接 接 收 来 自 submit. bio 提交 的 bio HK. 


x 12 x 
网 络 设备 驱动 程序 


前 面 依 次 讨论 了 字符 设备 和 块 设备 ， 本 章 将 讨论 Linux 下 的 另 一 类 设备 : 网络 设备 。 网 络 
设备 是 Linux 下 三 大 标准 设备 类 型 之 一 ， 现 实 中 又 通常 被 称 为 “网 卡 ”， 用 来 完成 高 层 网 络 
协议 〈 如 TCP/UDP 等 ) 的 底层 数据 传输 及 设备 控制 等 功能 。 


就 数据 传输 而 言 ， 网 络 设 备 类 似 于 前 面 讨论 过 的 块 设备 ， 通 常情 况 下 两 者 都 被 用 来 与 系统 
进行 大 量 的 数据 交互 ， 根 据 上 层 模 块 的 需求 进行 数据 的 发 送 和 接收 ， 但 是 网 络 设备 如 下 的 
一 些 特性 使 得 它 与 块 设备 区 别 开 来 。 


首先 网 络 设备 在 /dev 目录 下 没有 入 口 点 ， 换 句 话 说 ， 网 络 设备 在 系统 中 并 不 像 块 设备 那样 以 
一 个 设备 文件 的 形式 存在 ， 在 应 用 层 ， 用 户 通 过 套 接口 API 的 socket 函数 来 使 用 网 络 设备 。 


socket API 的 原型 函数 为 : 


其 中 ， 参 数 family 用 来 表示 套 接 口 所 使 用 的 协议 族 ， 包 括 AF INET (IPv4 协议 族 ) 和 
AF INET6 (IPv6 协议 族 ) 等 。 BR type 用 来 表示 套 接口 的 类 型 ， 有 SOCK_STREAM (F 
节 流 套 接口 )、SOCK_DGRAM (数据 报 套 接口 ) 和 SOCK RAW (原始 套 接口 )。 一 般 来 说 ， 
函数 的 第 三 个 参数 在 实际 使 用 中 常设 置 为 0， 除非 是 用 在 原始 套 接口 上 。 


其 次 ， 网 络 设备 除了 响应 来 自 内 核 的 请 求 外 ， 还 需要 异步 地 处 理 来 目 外 部 世界 的 数据 包 ， 
而 对 于 块 设备 而 言 ， 只 需 响 应 来 自 内 核 的 请 求 ， 这 使 得 网 络 设备 驱动 程序 的 设计 模式 无 法 
等 同 于 块 设 备 驱 动 程序 。 除 处 理 数据 外 ， 网 络 设备 开动 程序 还 需要 完成 诸如 地 址 设置 、 配 
置 网 络 传输 参数 及 流量 统计 等 一 些 管理 类 的 任务 。 


说 到 这 里 ， 不 得 不 提 一 下 经 典 的 网 络 协议 分 层 模型 。 虽 然 我 们 不 打算 在 本 书 过 多 涉及 这 方 
面 的 内 容 ， 因 为 这 不 是 本 书 的 主题 ， 但 是 作为 互联 网 世界 的 幕后 推手 ， 无 论 如 何 还 是 有 必 
要 简单 介绍 一 下 。 互 联网 发 展 史上 曾 出 现 过 两 种 协议 分 层 模 型 , 分 别 是 国际 标准 化 组 织 ISO 
(International Organization for Standardization ) 的 开放 系统 互联 OSI (Open Systems 
Interconnection) 模型 和 TCP/IP 参考 模型 。 前 者 将 组 成 网 络 的 协议 分 为 七 层 ， 分 别 是 应 用 
层 、 表 示 层 、 会 话 层 、 传 输 层 、 网 络 层 、 数 据 链 路 层 和 物理 层 ， 后 者 则 将 网 络 分 为 四 层 ， 
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分 别 是 应 用 层 、 传 得 层 、 网 际 互联 层 和 网 络 访问 层 。 由 于 ISO 的 OSI 模型 只 是 一 个 理论 上 
的 模型 , 并 没有 成 熟 的 产品 ,所 以 当今 互联 网 事实 上 的 国际 标准 其 实 是 基于 TCP/IP 模型 的 ， 
图 12-1 显示 了 两 种 模型 之 间 的 区 别 : 





图 12-1 ISO/OSI 模型 与 TCP/TP 参考 模型 


在 这 两 个 参考 模型 中 ， 各 层 只 能 与 相 邻 的 层 进行 通信 。 技 照 TCP/IP 参考 异型 ， 网 络 设备 及 
其 驱动 程序 实际 上 完成 的 是 最 底层 的 网 络 访问 层 ， 该 层 直 接 面向 实际 承担 数据 传输 任务 的 
物理 媒体 ， 为 数据 通信 的 介质 提供 规范 和 定义 ， 主 要 关心 的 是 在 通信 线路 上 传输 比特 流 的 
问题 (信和 号 与 接口 等 )。 


由 十 协议 数据 的 封装 性 ， 通 过 网 卡 与 外 部 交换 数据 时 最 终 是 用 网 卡 的 硬件 地 址 来 标识 各 主 
机 ， 对 于 著名 的 以 太 网 卡 而 言 也 称 为 MAC 地 址 ， 由 48 位 二进制 数组 成 。MAC 地 址 作为 
一 种 网 络 世 界 的 ID， 必 须 有 具有 全 球 唯一 性 ， 网 卡 生 产 商 通 常 把 分 配 到 的 MAC 地 址 烧 写 进 
硬件 中 。 


在 Linux 网 络 部 分 相关 的 源 代码 中 ， 经 常会 出 现 “octet” 这 样 的 字眼 ， 这 是 一 个 在 网 络 世 
界 中 使 用 的 术语 ， 指 代 一 个 8 位 的 数据 位 ， 跟 字 节 是 一 个 意思 ， 它 是 网 络 设备 和 协议 所 能 
理解 的 最 小 单位 。 本 书 并 不 会 刻意 强调 这 种 提 法 ， 因 为 从 网 络 设备 驱动 程序 员 的 角度 ， 字 
节 的 叫 法 要 更 通用 。 


在 实际 使 用 的 TCP/IP 参考 模型 下 , 对 于 网 络 系统 的 数据 传输 而 言 ， 也 相应 地 使 用 了 数据 圭 
装 的 方式 ， 它 是 分 层 模 型 的 具体 体现 ， 图 12-2 显示 了 网 络 数 据 包 在 各 协议 层 之 间 传 递 时 的 
数据 封装 情况 : 


网 络 数据 包 





净 荷 (payload) 


图 12-2 网 络 数据 包 的 封装 格式 
当 一 个 网 络 数据 包 从 上 上层 往 下 层 传递 时 , 下 层 协议 会 将 上 层 传 下 来 的 数据 包 视 为 一 个 净 荷 ， 
然后 加 上 本 层 的 协议 头 以 完成 该 层 协 议 所 实现 的 功能 控制 信息 ， 这 个 过 程 也 就 是 平常 折 谓 
的 数据 包 的 封装 ， 俗 称 打 包 。 而 当 数 据 包 从 下 层 往 上 层 传 递 时 ， 过 程 正 好 相反 ， 俗 称 解 包 。 
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广义 地 讲 , 网 络 设备 种 类 繁多 ,比如 网 卡 NIC (Network Interface Card), PHa (repeater), 
网 桥 Cbridge) 及 路 由 设备 《router) 等 ， 然 而 在 实际 的 工作 中 ， 读 者 接触 最 多 的 网 络 设备 
是 以 太 网 设备 NIC， 所 以 本 书 将 以 该 设备 为 讨论 的 主体 对 银 ， 在 后 续 的 描述 中 ， 有 时 会 将 
NIC、 网 络 设备 和 网 卡 或 以 太 网 设备 等 称谓 混用 ， 它 们 均 指 代 同 一 个 意思 。 这 里 给 出 一 个 
经 以 太 网 设备 传递 的 数据 包 的 具体 协议 封装 形式 ， 以 方便 读者 在 本 章 后 续 部 分 的 解读 中 建 
立 直 观 的 印象 ， 图 12-3 显示 了 某 一 以 太 网 协议 数据 包 的 封装 形式 : 


ja E A pedin cpu] CAR- 3007 TT | 
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净 葵 (payload) 





图 12-3 以太 网 帧 封装 格式 


当 茶 一 网 络 数据 包 经 高 层 一 层 一 层 往 下 传递 ,最终 到 达 以 太 网 卡 时 ,将 被 冠 以 以 太 网 头 部 ， 
图 中 的 目标 地 址 和 源 地址 即 通 常 所 说 的 MAC 地 址 (6 字 节 ), 是 网 络 世 界 实 体 的 身份 号 码 ， 
更 多 关 了 以 太 网 协议 的 细节 可 以 参考 网 络 协议 类 书籍 。 下 面 将 开始 解读 Linux 内 核 源码 中 
关于 网 络 设备 驱动 程序 的 幕后 细节 。 


12.1 net_device 


在 Linux 内 核 中 ， 网 络 设备 由 数据 结构 net_device 来 表示 ， 它 存储 着 特定 网 络 设备 的 所 有 
信息 , 这 是 一 个 极其 庞大 的 数据 结构 1, 也 是 网 络 设备 驱动 程序 开发 者 要 面 对 的 第 一 个 核心 
数据 ， 鉴 于 本 章 后 续 部 分 经 营 会 引用 到 这 个 数据 结构 ， 所 以 经 过 一 些 简单 编辑 与 简化 后 ， 
我 们 将 其 在 内 核 中 的 定义 摘录 如 下 。 需 要 注意 的 是 ， 网 络 设备 驱动 程序 并 不 会 使 用 到 该 结 
构 体 中 的 所 有 成 员 ， 有 些 数据 成 员 仅 是 提供 给 内 核 中 的 网 络 子 系统 所 使 用 ， 在 该 结构 体 定 
义 的 后 面 ， 我 们 会 将 网 络 设备 驱动 程序 可 能 用 到 的 一 些 常 见 的 成 员 变量 作 简 单 介绍 。 


=-= = =- prem- aaa >» a i 


struct net_device { 


/* 
* This is the first field of the "visible" part of this structure 


1 源码 中 的 注释 写 道 ， 定 义 这 么 应 大 的 一 个 结构 是 个 很 人 的 错误 ， 因 为 结构 中 各 成 员 间 的 还 辑 关系 显得 比较 混乱 。 
“Actually, this whole structure is a big mistake. It mixes 1/O data with strictly "high-level" data. and it has to know about 
almost every data structure used in the INET module.” 
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* (i.e. as seen by users in the "Space.c" file). It is the name 
* the interface. 
+r 

char name[IFNAMSIZ]: 


struct pm_qos_request_list *pm qos req; 


/* device name hash chain */ 
struct hlist node name hlist; 
/* snmp alias */ 


char *ifalias; 


/* 
* VO specific fields 
* . FIXME: Merge these and struct ifmap into one 


*/ 
unsigned long mem end; /* shared mem end "i 
unsigned long mem start; /* shared mem start "y 
unsigned long base addr; /* device I/O address — */ 
unsigned int ^ drq; /* device IRQ number  */ 
[* 


* Some hardware also needs these fields, but they are not 
* part of the usual set specified in Space.c. 


a 
unsigned char if port; /* Selectable AUI, TP...*/ 
unsigned char dma; /* DMA channel v) 
unsigned long state; 


structlist head — dev list; 
struct list head — napi list; 
struct list head — unreg list; 


/* currently active device features */ 


u32 features; 

/* user-changeable features */ 

u32 hw features; 

/* user-requested features */ 

u32 wanted features; 
/* VLAN feature mask */ 

u32 vlan features; 


/* Interface index. Unique device identifier */ 
int Ifindex; 


int 
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iflink; 


struct net device stats stats; 


atomic long t 


rx dropped; /* dropped packets by core network 
* Do not use this in drivers. 


"T 


/* Management operations */ 


const struct net device ops *netdev ops; 
const struct ethtool ops *ethtool ops; 


/* Hardware header description */ 


const struct header ops *header ops; 


unsigned int 

unsigned short 
unsigned short 
unsigned short 


unsigned char 
unsigned char 


unsigned int 
unsigned short 
unsigned short 


flags; /* interface flags (ala BSD)  */ 

gflags; 

priv flags; /* Like 'flags' but invisible to userspace. */ 
padded; — /* How much padding added by alloc_netdev() */ 


operstate; /* RFC2863 operstate */ 
link mode; /* mapping policy to operstate */ 


mtu; /* interface MTU value +j 
type; /* interface hardware type +*/ 
hard header len; /* hardware hdr length */ 


/* extra head- and tailroom the hardware may need, but not in all cases 


* can this be guaranteed, especially tailroom. Some cases also use 
* LL MAX HEADER instead to allocate the skb. 


*/ 
unsigned short 


unsigned short 


needed headroom; 


needed tailroom; 


/* [nterface address info. */ 


unsigned char 
unsigned char 
unsigned char 
unsigned short 


spinlock t 


struct netdev hw addr list uc; 
struct netdev hw addr list me; 


int 
unsigned int 
unsigned int 


perm addr[MAX ADDR LEN]; /* permanent hw address */ 
addr assign type; /* hw address assignment type */ 

addr len; /* hardware address length — */ 
dev id; /* for shared network cards */ 


addr list lock; 

/* Unicast mac addresses */ 

/* Multicast mac addresses */ 
uc promisc; 

promiscuity; 

allmulti; 
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void *atalk ptr; /* AppleTalk link ^j 
struct in device rcu  *ip ptr; — /*lIPv4specific data */ 
struct dn dev — rcu *dn ptr; — /* DECnet specific data */ 
struct inetG dev — rcu  *ip6 ptr; /* IPv6 specific data */ 


void *ec ptr; — /* Econet specific data */ 
void *ax25 ptr; /* AX.25 specific data */ 
struct wireless dev *jeee80211 ptr; /* IEEE 802.11 specific data, 
assign before registering */ 
/* 
* Cache line mostly used on receive path (including eth type trans()) 
sj 
unsigned long last rx; /* Time of last Rx 


* This should not be set in 

* drivers, unless really needed, 

* hecause network stack (bonding) 
* use it if/when necessary, to 

* avoid dirtying this cache line. 

+ 


struct net_device *master; /* Pointer to master device of a group, 
* which this device is member of. 
d 
/* Interface address info used in eth type trans) */ 
unsigned char *dev addr; /* hw address, (before bcast 
because most packets are 


unicast) */ 


struct netdev_hw_addr list dev_addrs; /* list of device 
hw addresses */ 


unsigned char broadcasi[MA X ADDR LEN]; /* hw beastadd — */ 


rx handler func t rcu *rx handler; 
void rcu *rx handler data; 


struct netdev queue —rcu *ingress queue; 
struct netdev queue * tx cacheline aligned in smp; 


/* Number of TX queues allocated at alloc netdev mq()time  */ 
unsigned int num tx queues; 


/* Number of TX queues currently active in device — */ 
unsigned int real num tx queues; 
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/* root qdisc from userspace point of view */ 


struct Odisc *adisc; 
unsigned long tx queue len; — /* Max frames per queue allowed */ 
spinlock t tx global lock; 


/* These may be needed for future network-power-down code. */ 
/* 
* trans start here is expensive for high speed devices on SMP, 
+ please use netdev queue--trans start instead. 
ej 
unsigned long trans start; /* Time (in jiffies) of last Tx — */ 


int watchdog timeo; /* used by dev_watchdog() */ 
struct timer list — watchdog timer; 


/* Number of references to this device */ 


int  percpu *pcpu refcnt; 


/* delayed register/unregister */ 
struct list head — todo list; 

/* device index hash chain */ 
struct hlist node index hlist; 


struct list head — link watch list; 


/* register/unregister state machine */ 
enum ( NETREG UNINITIALIZED=0, 
NETREG REGISTERED, — /* completed register netdevice */ 
NETREG_UNREGISTERING,’ called unregister netdevice */ 
METREG UNREGISTERED,/* completed unregister todo */ 
NETREG RELEASED, /* called free netdev */ 
NETREG DUMMYY, /* dummy device for NAPI poll */ 
} reg state:16; 


enum { 
RTNL LINK INITIALIZED, 
RTNL LINK INITIALIZING, 
} rtnl link state:16; 


/* Called from unregister, can be used to call free netdev */ 
void (*destructor)(struct net device *dev); 


#ifdef CONFIG NETPOLL 
struct netpoll info*npinfo; 
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ftendif 


#ifdef CONFIG_NET_NS 
/* Network namespace this network device is inside */ 
struct net *nd net; 

ftendif 


/* mid-layer private */ 
union | 
void *ml priv; 
struct pcpu lstats — perepu = *lstats; /* loopback stats */ 
struct pcpu tstats — percpu —— *tstats; /* tunnel stats */ 
struct pcpu_dstats — percpu — *dstats; /* dummy stats */ 
h 
/* GARP */ 
struct garp port rcu  *garp port; 


/* class/net/name entry */ 

struct device dev; 

/* space for optional device, statistics, and wireless sysfs groups */ 
const struct attribute group *sysfs groups[4]; 


/* rtnetlink link ops */ 
const struct rtnl link ops *rtnl link ops; 


/* for setting kernel sock attribute on TCP connection setup */ 


#define GSO MAX SIZE 65536 
unsigned int gso max size; 
u8 num tc; 


struct netdev tc txq tc to txq(TC MAX QUEUE]; 
ug prio tc map[TC BITMASK + 1]; 


/* n-tuple filter list attached to this device */ 
struct ethtool rx ntuple list ethtool ntuple list; 


/* phy device may attach itself for hardware timestamping */ 
struct phy device *phydev; 


/* group the device belongs to */ 


int group; 


char name[IFNAMSIZ] 


网 络 设备 的 名 称 ， 当 前 内 核 为 其 指定 的 长 度 IFNAMSIZ 4 16. 4 Linux 内 核 中 ， 设 备 
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名 称 字符 串 末 尾 的 数字 用 来 表示 同一 网 络 设 备 类 型 的 多 个 适配器 《比如 系统 中 有 两 块 以 太 
网 卡 )， 表 12-1 所 列 为 常见 的 一 些 网 络 设备 的 命名 规则 。 


表 12-1 网 络 设备 命名 规则 


调制 解 调 器 等 PPP 连接 类 型 的 设备 


环 回 (leopback) 设备 ， 用 于 本 地 计算 机 通信 





struct hlist node — name hlist 
struct list head dev list 
struct hlist node — index hlist 


用 于 网 络 设备 的 列表 管理 ， 成 功 注 册 进 系统 的 网 络 设备 都 将 被 加 到 这 三 个 链表 中 ， 其 
中 name_hlist 和 index_hlist 分 别 用 于 网 络 设备 名 称 与 接口 索引 的 散 列 表 ，dev_list 则 用 于 将 
当前 设备 加 到 所 属 命名 空间 (name space) 中 的 dev. base head 所 管理 的 全 局 链表 。 


struct list_head napi_list 


用 于 支持 NAPI 特性 的 网 络 设备 ， 它 将 struct napi_struct 对 象 的 dev. list 加 到 napi. list 
所 对 应 的 链表 中 ， 后 续 的 NAPI 相关 内 容 会 有 涉及 。 


const struct net device ops *netdev ops 


网 络 设备 方法 操作 集 。 该 数据 结构 定义 了 针对 当前 设备 的 一 组 操作 集合 ， 比 如 
ndo open. ndo stop 和 ndo start xmit 等 。 稍 早 一 些 的 内 核 将 这 些 设 备 方法 直接 定义 在 
net device 结构 下 面 ， 当 前 内 核 则 将 这 些 设备 方法 放 到 了 一 个 内 赔 在 net_device 中 的 struct 
net_device_ops 数据 结构 中 。 


const struct header_ops *header_ops 


针对 网 络 访问 层 数 据 帧 的 一 组 操作 集 。 对 于 以 太 网 设备 ， 这 个 操作 集 定 义 在 全 局 变量 
eth header ops 中 。 


int ifindex 
当前 网 络 设备 所 在 的 命名 空间 的 接口 索引 ， 用 来 唯一 标示 设备 所 提供 的 接口 。 
unsigned int mtu 


网 络 访问 层 的 最 大 传输 单元 MTU (maximum transfer unit)， 是 针对 上 一 屋 的 净 荷 。 对 
于 以 太 网 设备 ， 该 值 为 1500。 
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unsigned short hard header len 

当前 网 络 设备 所 处 理 的 网 络 访问 层 的 硬件 协议 头 的 长 度 。 对 于 以 太 网 设备 , 为 14 个 字 节 。 
unsigned char addr len 

网 络 访问 层 硬件 地 址 长 度 。 对 于 以 太 网 设备 ， 为 6 个 字 节 。 
struct netdev_hw_addr_list — uc 

网 络 设备 的 单 播 Cunicas MAC 地 址 列表 。 
struct netdev hw. addr list me 

网 络 设备 的 多 播 (multicast) MAC 地 址 列表 。 
unsigned char *dev_addr 

TR In] Fd £j 19. Hh A A HE FRE < 
struct netdeo_hw_addr_list ^ dev addrs 


网 络 设 备 硬 件 地 址 链表 。struct netdev hw addr list 类 型 定义 为 ; 
_ Sinclude/linux/netdevice.h> - 
struct netdev_hw_addr list { 
struct list head list; 


int count; 


i 


net device 对 象 通过 list 成 员 来 将 隶属 于 当前 设备 的 硬件 地 址 加 到 一 个 链表 中 ， 成 员 count 
表示 链表 中 元 素 的 个 数 ， 


unsigned char broadcast[MAX ADDR LEN] 
网 络 访问 层 硬件 广播 地 址 。 

struct netdev queue __rcu *ingress queue 
网 络 设备 的 接收 队列 。 

struct netdev_queue * tx 
网 络 设备 的 发 送 队列 。 

unsigned int num tx queues 


由 alloc netdev mq 函数 分 配 的 隶属 于 当前 网 络 设备 的 发 送 队列 的 数量 。 
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unsigned int real num tx queues 

网 络 设备 中 当前 活动 的 发 送 队 列 的 数量 。 
enum reg state 

"A BU UE SEE SRELTBUZENPUGS. HARREN R BUR n. 
struct net *nd net 


网 络 设 备 所 在 的 命名 空间 。 当 前 内 核 已 经 开始 对 网 络 设备 引入 了 命名 空间 的 概念 ， 相 
对 于 之 前 的 单一 的 全 区 命名 空间 ，struct net 的 引入 应 该 算是 一 个 新 的 机 制 ， 内 核 通 过 引入 
命名 空间 的 机 制 ， 可 以 在 系统 中 建立 多 个 独立 的 虚拟 视图 ， 各 个 视图 之 间 彼 此 分 隔 。 不 过 
这 种 机 制 更 多 地 被 内 核 使 用 ， 对 于 设备 驱动 程序 员 而 言 ， 并 不 会 直接 和 这 些 概念 打交道 。 


int watchdog timeo 
用 于 设 定 网 络 设备 在 传输 数据 包 时 传输 超时 的 到 期 时 间 。 
struct timer list watchdog timer 


发 送 分 组 超时 定时 器 。 当 网 络 子 系统 发 送 队列 中 某 一 数据 包 在 指定 的 时 间 段 之 后 依然 
没有 成 功 发 送出 去 , 那么 该 定时 器 将 到 期 , 最 终 导致 设备 驱动 程序 的 传输 超时 函数 被 调用 。 


struct device dev 


AI BRAY AAT SRT EAGER, AR RE dd a E e 108 B VE OK oR BY HR 
当中 ， 


AE A ， 首 先 要 分 配 一 个 net device 类 型 的 对 象 来 代表 所 管理 的 网 卡 

， 内 核 为 此 提供 了 一 个 分 配 net_device 对 象 的 宏 alloc_netdev， 所 以 设备 驱动 程序 无 须 
sio kmalloc phi ^r HO net device XJ, AA alloc netdev 除了 分 配 内 存 还 执行 必要 的 初 
始 化 任务 : 


«include/linux/netdevice.h» 


Atom "TP rr LL cunT cn - o ow om om Tom mors o mor o com s Gom 7óoS Ws Co LOS Wo" EGOT LOR!GRES W- d L»DOG - doPOG uL OG OH US RS m o Ro d uos mo o0 044 o od 


#define alloc netdev(sizeof priv, name, setup) \ 
alloc netdev mqs(sizeof priv, name, setup, 1, 1) 


所 以 alloc netdev 宏 实 际 上 调用 的 是 alloc_netdev_ mgs 函数 ， 该 函数 的 实现 2 为 ， 


<net/core/dev.c> 


一 一 一 一 一 一 一 一 一 一 一 一 -= 一 一 -站 一 下 一 


struct net device *alloc netdev_mqsfint sizeof priv, const char *name, 
void (*setup)(struct net device *), 


2 此 处 实现 中 删 去 了 CONFIG RPS 部 分 ， 该 选项 在 SMP 系统 中 用 来 实现 RPS (Receive Packet Steering). 
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unsigned int txqs, unsigned int rxqs) 


struct net device *dev; 
size talloc size; 
struct net device *p; 


alloc size — sizeof(struct net device); 
if (sizeof priv) { 
/* ensure 32-byte alignment of private area */ 
alloc size = ALIGN(alloc size, NETDEV ALIGN); 
alloc size += sizeof priv; 
} 
/* ensure 32-byte alignment of whole construct */ 
alloc_size += NETDEV ALIGN - 1; 


p = kzalloc(alloc size, GFP KERNEL); 

if (1p) { 
printk(KERN ERR "alloc netdev: Unable to allocate device.\n"); 
return NULL: 


dev = PTR. ALIGN(p, NETDEV ALIGN); 
dev->padded = (char *)dev - (char *)p; 


dev->pepu_refent = alloc_percpu(int); 
if (!dev->pepu_refent) 
goto free_p; 


if(dev addr init(dev)) 
goto free pcpu; 


dev mc init(dev); 

dev uc init(dev); 

dev net set(dev, &init net); 
dev--gso max size = GSO MAX SIZE; 


INIT LIST HEAD(&dev--ethtool ntuple list.list); 
dev->ethtool_ntuple_list.count = 0; 
INIT_LIST_HEAD(&dev->napi_ list); 

INIT LIST HEAD(&dev--unreg list); 

INIT LIST HEAD(&dev--link watch list); 
dev--priv flags = IFF XMIT DST RELEASE; 
setup(dev); 


dev-^num tx queues = txqs; 
dev--real num tx queues = txqs; 
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if (netif alloc netdev queues(dev)) 
goto free all; 


strepy(dev->name, name); 
dev->group = INIT NETDEV GROUP; 
return dev; 


free all: 
free netdev(dev); 
return NULL; 


free pcpu: 
free_percpu(dev->pcpu_refent); 
kfree(dev->_tx); 


free p: 
kfree(p); 

return NULL; 
} 


先 看 alloc netdev 宏 的 参数 . 第 一 个 参数 是 个 整 型 的 sizeof priv， 用 来 表示 驱动 程序 的 “ 私 
有 数据 ”区 的 大 小 ， 等 一 下 将 看 到 该 “私有 数据 ”区 实际 上 是 通过 alloc_netdev_ mgs 函数 
来 分 配 的 ， 驱 动 程序 可 以 通过 netdev_priv 来 得 到 该 “私有 数据 ”区 的 指针 。 第 二 个 参数 是 
字符 型 的 name， 用 来 表示 该 网 络 接口 的 名 称 ， 其 在 用 户 空 间 是 可 见 的 。 第 三 个 参数 是 个 函 
数 指针 ， 类 型 为 void (*setup)(struct net device *)， 程 序 员 需 要 在 其 设备 驱动 程序 中 负责 实 
现 一 个 该 类 型 的 消 数 ， 在 调用 alloc_netdev 时 作为 实 参 传 入 ，alloc_netdev_ mqs 将 调用 该 函 
数 来 初始 化 net. device 对 象 中 余下 的 一 部 分 成 员 变量 。 


下 面 考察 一 下 alloc netdev mgs 函数 的 实现 细节 ， 整 体 上 该 函数 包含 了 两 大 部 分 ， 分 别 是 
内 存 分 配 和 初始 化 。 首 先 分 配 的 是 net device 对 象 的 空间 ， 如 果 设 备 驱 动 程序 需要 拥有 自 
己 的 “私有 数据 ”区 ， 那 么 将 在 sizeof(struct net_device) 的 基础 上 对 齐 到 32 字 节 的 整数 倍 ， 
然后 加 上 “私有 数据 ”区 的 大 小 , 之 后 用 kzalloc 函数 分 配 出 net_device 对 象 和 “私有 数据 ?” 
区 所 在 的 空间 。 函 数 中 另 一 个 要 分 配 的 重要 数据 结构 是 struct netdev_ queue， 该 结构 的 实例 
用 来 表示 设备 所 拥有 的 队列 。 关 于 这 个 结构 的 用 法 ， 将 在 本 章 后 续 部 分 予以 介绍 ， 当 前 仍 
将 注意 力 放 在 alloc_netdev_mqs 函数 上 。 函 数 调用 kcalloc 来 分 配 netdev_queue 的 对 象 ， 内 
核 中 kcalloc 用 来 为 一 个 数组 分 配 内 存 空间 , 在 当前 的 上 下 文中 , kcalloc 将 分 配 只 有 一 个 元 
素 的 队列 ， 该 元 素 的 大 小 是 sizeof(struct netdev_queue), kcalloc 会 将 分 配 出 的 内 存 空间 全 部 
初始 化 为 0。 


接 下 来 是 初始 化 环节 , dev_addr_init(dev) 用 来 初始 化 dev 对 象 中 的 硬件 地 址 链表 dev_addrs， 
函数 将 在 该 链表 中 加 入 一 个 地 址 值 全 为 0 的 硬件 地 址 对 象 ， 然 后 将 dev 的 dev_addr 成 员 指 
问 该 硬件 地 址 对 象 。dev_mec_init 和 dev uc init 函数 分 别 用 来 初始 化 当前 设备 对 象 的 组 播 和 
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单 播 MAC 地 址 列表 。 接 下 来 函数 初始 化 发 送 与 接收 队列 的 相关 成 员 。 


函数 的 最 后 在 设 定 设 备 名 称 前 调用 了 传 入 的 setup 函数 指针 , 这 给 了 网 络 设备 驱动 程序 一 个 
机 会 以 初始 化 一 些 在 当前 函数 中 尚未 初始 化 的 net_device 对 象 成 员 。 


现实 中 遇 到 的 网 络 设 备 绝 大 多 数 属于 以 太 网 卡 设备 ， 所 以 设备 驱动 程序 直接 使 用 
alloc_netdev 函数 的 机 会 并 不 多。 为 了 方便 这 种 情况 下 的 设备 驱动 程序 的 编写 ， 内 核 特别 针 
对 以 太 网 设备 提供 了 一 个 alloc etherdev 宏 ， 它 其 实 是 对 刚 讨论 过 的 alloc_netdev_mqs 函数 
的 一 个 封 逆 ， 专 门 用 来 分 配 并 初始 化 一 个 以 太 网 设备 。alloc_etherdev 宏 的 定义 如 下 ; 


<include/linux/etherdevice.h> 
#define alloc_etherdew(sizeof_priv) alloc etherdev mq(sizeof priv, 1) 
define alloc etherdev mq(sizeof priv, count) alloc etherdev mqs(sizeof priv, count, count) 


可 以 看 到 alloc etherdev 最 终 调 用 了 alloc etherdev mqs， 后 者 的 定义 如 下 : 


“netethemetioth.o> 
struct net device *alloc etherdev mas(int erol quii unsigned int tgs, v 
unsigned int rxqs) 
i 
return alloc netdev mqs(sizeof priv, "eth?6d", ether setup, txqs, rxqs); 


} 


要 注意 的 是 调用 时 使 用 的 参数 ， 以 太 网 设备 名 称 被 冠 以 "eth%d"， 用 以 初始 化 设备 的 setup 
函数 则 变 成 了 ether_setup， 后 者 用 来 初始 化 net_device 对 象 为 以 太 网 设备 。ehter setup 函数 
的 具体 实现 是 : 


和 


void ether_setup(struct net_device *dev) 
{ 


dev->header_ops = &eth_header_ops; 

dev->type = ARPHRD ETHER; 

dev--hard header len — ETH HLEN; 

dev->mtu = ETH DATA LEN; 

dev->addr_len = ETH ALEN; 

dev-^tx queue len —1000; /* Ethernet wants good queues */ 
dev->flags =IFF_BROADCAST|IFF_MULTICAST; 


memset(dev->broadcast, OxFF, ETH_ALEN); 
} 


所 以 ， 对 于 以 太 网 设备 的 驱动 程序 而 言 ， 应 该 使 用 alloc_etherdev 函数 来 分 配 net_device 对 
象 ， 其 内 部 会 调用 ether setup 将 新 分 配 出 的 net_device 对 象 初始 化 为 一 个 以 太 网 设备 。 


如 读者 所 猜想 的 那样 ， 如 果 手 边 的 设备 不 幸 不 是 一 个 以 太 网 设备 ， 那 么 内 核 同 样 为 此 封装 
了 alloc netdev 函数 ， 只 不 过 传 入 的 用 做 设备 初始 化 的 参数 setup 的 实 参 会 根据 具体 的 设备 


第 12 章 网 络 设 备 驱动 程序 487 


而 有 所 不 同 ， 以 下 是 常见 的 一 些 网 络 设备 在 Linux 内 核 中 对 应 的 alloc_xxx 函数 : 


e 光纤 分 布 式 数 据 接口 FDDI (Fiber Distributed Data Interface): alloc fddidev(int 


sizeof priv). 
e WIR TR (Token Ring): alloc trdev(int sizeof priv). 
€ Apple LocalTalk 设备 : alloc ltalkdev(int sizeof priv). 


和 ”高 性 能 并 行 接 口 HIPPI ( High-Performance Parallel Interface ) : alloc hippi dev(int 
sizeof priv). 


多 ”光纤 通道 设备 FC (Fiber Channel): alloc_fcdev(int sizeof priv). 


作为 通用 的 规则 ， 当 驱动 所 在 的 模块 从 系统 中 移 除 时 ， 设 备 驱 动 程序 应 该 负责 释放 
alloc_netdev 所 分 配 的 系统 资源 ， 内 核 为 此 提供 了 对 应 的 函数 free_netdev， 其 代码 如 下 : 


<net/core/dev.c> 


mom oe nom onn om ocn a Tz A 


void free _ netdev(struct net device *dev) 
{ 
struct napi_struct *p, *n 
release net(dev net(dev)), 
kfree(dev- tx); 
kfree(rcu dereference raw(dev--ingress queue)); 


/* Flush device addresses */ 
dev addr flush(dev); 


/* Clear ethtool n-tuple list */ 
ethtool ntuple flush(dev); 


list for each entry safe(p, n, &dev--napi list, dev list) 
netif napi del(p); 


free percpu(dev--pcpu refcnt); 
dev--pcpu refcnt = NULL; 


/* Compatibility with error handling in drivers */ 

if (dev-^reg state — NETREG UNINITIALIZED) { 
kfree((char *)dev - dev->padded); 
return; 


} 


BUG_ON(dev->reg_state != NETREG UNREGISTERED); 
dev->reg state = NETREG RELEASED; 
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/* will free via device release */ 
put device(&dev--dev); 


} 


函数 的 主要 功能 在 于 释放 alloc_netdev 分 配 的 资源 ， 同 时 更 新 对 应 的 设备 状态 reg, state, fi 
当前 设备 所 对 应 的 内 核对 象 device 的 引用 计数 减 1， 如 果 当 前 函数 的 调用 是 对 该 设备 对 铺 
的 最 后 一 个 引用 ， 那 么 设备 所 在 的 空间 将 最 终 被 释放 。 


12.2 了 网络 设备 的 注册 


前 面 讨论 了 如 何 分 配 并 初始 化 一 个 新 的 net_device 对 象 ， 它 是 当前 网 络 设备 驱动 程序 所 控 
制 的 网 络 设备 的 一 个 软件 抽象 ， 如 果 没 有 进一步 的 动作 ， 系 统 并 不 会 意识 到 有 这 样 - -个 网 
络 设备 的 仔 在 ， 更 具体 地 ， 当 Linux 内 核 的 网 络 子 系 统 需要 发 送 或 者 接收 一 个 网 络 数据 包 
时 ， 它 不 会 调用 到 该 net_device 对 象 提 供 的 函数 。 所 以 理所当然 地 ， 在 驱动 程序 分 配 出 一 
个 新 的 net_device 对 象 并 将 其 初始 化 之 后 ， 接 下 来 就 需要 把 它 注册 到 系统 中 。 这 一 任务 由 
内 核 握 供 的 register netdev 函数 来 完成 ， 其 在 内 核 源码 中 的 定义 是 : 


<net/core/dev.c> 


{ 


if (strchr(dev->name, "%')) { 
err = dev_alloc_name(dev, dev->name); 


} 


err = register netdevice(dev); 


} 


register netdev 国 数 主体 由 两 部 分 构成 : 一 是 调用 dev_alloc name 来 为 设备 分 配 一 个 接口 的 
AK; 二 是 调用 register netdevice 完成 设备 的 注册 工作 。 此 处 的 重点 是 网 络 设备 的 注册 ， 
所 以 要 重点 讨论 register netdevice AA, MAT Linux 内 核 源码 中 的 实现 主体 结构 为 ， 


<net/core/dev.c> 


ee eB EB UL RP MF BRP IE Be ee ee ee hr ee 


{ 
int ret; 
struct net *net = dev_net(dev); 


spin_lock_init(&dev->addr_ list lock); 
netdev set addr lockdep class(dev); 
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dev->iflink = -1; 


/* Init, if this function is available */ 
if (dev->netdev_ops->ndo_init) { 
ret = dev->netdev_ops->ndo_init(dev); 
if (ret) { 
if (ret > 0) 
ret = -EIO; 


goto out; 


ret = dev get valid name(dev, dev->name, 0); 
if (ret) 


goto err uninit; 


dev->ifindex = dev new index(net); 
if (dev->iflink == -1) 


dev->iflink = dev->ifindex; 


/* Transfer changeable features to wanted features and enable 
* software offloads (GSO and GRO). 
*/ 
dev->hw_features |= NETIF_F_SOFT_FEATURES; 
dev->features |- NETIF F SOFT FEATURES; 
dev-—wanted features = dev->features & dev->hw features; 


/* Enable GRO and NETIF F HIGHDMA for vlans by default, 
* vlan dev init() will do the dev->features check, so these features 
* are enabled only if supported by underlying device. 
+ 

dev->vlan_features |= (NETIF_F_GRO | NETIF F HIGHDMA); 


ret — call netdevice notifiers(:NETDEV POST INIT, dev); 
ret = notifier to errno(ret); 
if (ret) 


goto err uninit; 
ret = netdev register kobject(dev); 
if (ret) 
goto err uninit; 
dev--reg state = NETREG REGISTERED; 
netdev update features(dev); 


J* 
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* Default initial state at registry is that the 
* device is present. i 
*/ 


set bitt LINK STATE PRESENT, &dev->state); 


dev init scheduler(dev); 
dev hold(dev); 
list netdevice(dev); 


/* Notify protocols, that a new device appeared. */ 
ret = call netdevice notifiers(:NETDEV REGISTER, dev); 
ret = notifier to errno(ret); 
if (ret) { 
rollback_registered(dev); 
dev->reg_state = NETREG UNREGISTERED, 


* Prevent userspace races by waiting until the network 
* device is fully setup before sending notifications. 
*j 
if (!dev-rtnl link ops || 
dev->rtnl link, state == RTNL LINK INITIALIZED) 
rtmsg ifinfo(RTM NEWLINK, dev, ~0U); 


Qut: 
return ret; 


em uninit: 
if (dev->netdev_ops->ndo_uninit) 
dev-^netdev ops->ndo uninit(dev); 
goto out; 


j 


该 函数 被 调用 前 ， 当 前 的 网 络 设 备 对 象 dev 在 系统 中 注册 的 状态 应 该 是 
NETREG_UNINITIALIZED， 之 后 如 果 设 备 对 象 定义 有 特定 于 当前 设备 的 初始 化 函数 ， 那 
么 就 调用 这 个 初始 化 函数 。dev_new_index 函数 用 来 在 当前 设备 所 在 的 命名 空间 为 设备 所 提 
供 的 接口 寻找 一 个 唯一 的 接口 索引 值 。 在 register netdevice 这 个 函数 中 我 们 真正 关注 的 重 
点 函数 应 该 是 netdev register kobject， 它 通过 Linux 设备 驱动 模型 来 问 系 统 中 添加 当前 的 
i4. netdev register kobject HAE RR 24 BU P358 6] 2&1] dev 成 员 ， 通 过 前 面 对 网 
络 设备 数据 结构 net_device 的 解读 ，dev 成 员 是 一 个 struct device 类 型 的 变量 ， 内 核 通过 它 
将 网 络 设备 变 成 一 个 内 核对 象 〈kobject)， 继 而 通过 Linux 的 设备 模型 来 操控 当前 的 网 络 设 
备 ， 所 以 在 netdev register kobject 函数 中 可 看 到 如 下 代码 : 


第 12 章 网络 设备 驱动 程序 491 


<net/core/net-sysfs.c> 


int netdev_register_kobject(struct net_device *net) 


{ 


struct device *dev = &(net->dev); 


device_initialize(dev); 
dev->class = &net class; 


device_add(dev); 
} 


EP "Linux 设备 驱动 模型 ”一 章 中 已 经 详细 讨论 了 有 关内 核对 象 device HHI, AAR 
备 驱 动 模型 的 读者 想必 对 这 里 的 概念 不 会 阳 生 ， 总 之 ， 网 络 设备 内 人 嵌 的 dev 成 员 作为 一 个 
内 核对 象 被 加 到 了 系统 中 ， 并 通过 sysfs 文件 系统 回 用 户 空 间 披露 了 它 的 存在 ， 这 正 是 
netdev register kobject 函数 所 要 完成 的 核心 功能 。 


现在 继续 回 过 头 来 看 网 络 设备 的 注册 过 程 register netdevice 图 数 在 通过 
netdev register kobject 将 当前 设备 添加 进 系 统 之 后 ， 它 将 设备 对 银 的 reg, state 成 员 设 置 成 
NETREG REGISTERED 状态 ， 这 标志 着 网 络 设备 的 注册 过 程 已 经 结束 。 此 处 另 一 个 值得 
关注 的 函数 是 list_netdevice， 其 源码 实现 为 ; 


<net/core/dev.c> 


static int list netdevice(struct net_device *dev) 


i 


struct net *net = dev net(dev); 


write lock bh(&dev base lock); 
list add tail rcu(&dev--dev list, &net-^dev base head); 
hlist add head rcu(&dev->name_hlist, dev name hash(net, dev->name)); 
hlist add head rcu(&dev-—index hlist, 
dev index hash(net, dev->ifindex)); 
write unlock bh(&dev base lock); 
return 0; 


} 


从 函数 的 上 述 实 现 可 以 看 到 ， 它 将 当前 设备 对 和 象 加 入 到 特定 命名 空间 的 几 个 散 列 链表 中 ， 

这 样 当 网 络 子 系统 高 层 代 码 需要 发 送 数据 包 时 ， 它 将 能 通过 这 些 散 列 链表 找到 特定 的 网 络 
设备 ， 在 本 章 后 续 讨论 驱动 程序 中 接收 和 发 送 数据 包 的 实现 部 分 时 将 会 再 次 看 到 该 散 列 链 
RAJAH. ~4 list netdevice 调用 完毕 时 ，register netdev 的 核心 操作 基本 上 都 已 经 结束 ， 所 
以 函数 接 下 来 要 做 的 只 是 一 些 辅助 性 质 的 善后 工作 ， 诸 如 通知 高 层 协 议 模 块 一 个 新 的 网 络 
设备 加 到 了 系统 中 等 。 所 以 尽管 register netdevice 国 数 的 代码 量 不 少 ， 但 是 核心 的 功能 其 
实 只 在 device add 和 list_netdevice 这 两 个 国 数 身 上 。 一 旦 当前 的 设备 被 成 功 注 册 进 系统 ， 

就 意味 着 设 备 所 提供 的 功能 已 经 可 由 张 动 模块 所 暴露 的 接口 为 外 部 其 他 模块 所 调用 ， 因 此 
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合理 的 逻辑 顺序 应 该 是 只 当 设 备 所 要 完成 的 功能 接口 函数 全 部 就 绪 后 ， 设 备 模 块 才 最 终 同 
系统 注册 该 设备 。 在 register netdevice 函数 实现 的 最 后 部 分 , 还 有 一 个 对 dev init. scheduler 
函数 的 调用 ， 关 于 这 个 评 数 在 此 处 的 作用 我 们 将 在 本 章 稍 后 的 “传输 超时 ”一 和 节 中 再 予以 
讨论 。 至 于 内 核 的 网 络 子 系统 高 层 在 发 送 一 个 数据 包 时 ， 如 何 确定 由 哪 一 个 NIC RE CH 
如 当前 系统 中 拥有 不 止 一 个 激活 的 NIC 设备 ) 来 发 送 ， 那 其 实 是 “路 由 ”相关 的 话题 。 


在 Linux 环境 下 通过 route 命令 可 以 查看 到 当前 系统 的 路 由 信息 ， 例 如 


dennis@AMDLinuxFGL:/$ route 


Kernel IP routing table 

Destination Gateway Genmask Flags Metric Ref Use Iface 
10.237.74.0 * 255.255.2540 U l 0 0  ethü 
link-local m 255.255.0.0 U 1000 0 0  ethü 
default rtp002704rts.am 0.0.0.0 UG 0 0 0  etho 


当 网 络 子 系统 高 层 要 发 送 一 个 数据 包 时 ,通过 上 述 路 由 表 得 到 接口 信息 ， 比 如 上 面 的 eth0， 
然后 再 到 设备 列表 中 查找 对 应 的 设备 。 所 以 当 一 个 NIC 设备 加 系统 成 功 注册 后 ， 它 将 被 纳 
入 到 系统 的 网 络 设备 列表 管理 体系 中 ， 这 意味 痢 从 那 以 后 它 将 “暴露 ”在 网 络 子 系统 的 商 
层 代 码 之 中 ， 因 此 其 携带 的 设备 方法 随时 可 能 被 高 层 代码 所 “征用 ”。 


与 设备 注册 过 程 相 反 ， 当 驱动 所 在 的 模块 要 从 系统 中 移 除 时 ， 需 要 调用 相应 的 设备 注销 函 
数 unregister netdev， 其 实现 代码 为 : 


<net/core/dev.c> 


i 


{ 
rtnl lock); 
unregister netdevice(dev); 
rtnl, unlock(); 

j 


在 unregister netdevice 函数 发 起 的 调用 链 中 , rollback registered many 函数 承载 着 设备 注销 
的 实质 性 任务 ， 基 本 上 unregister_netdev 完成 与 register_netdev 相反 的 功能 。 一 个 网 络 设备 
在 从 系统 中 注销 后 ， 将 不 会 再 被 网 络 子 系 统 的 高 层 所 使 用 。 


12.3 ”设备 方法 


前 面 讨 论 了 内 核 中 如 何 分 配 及 向 系统 注册 一 个 网 络 设备 对 和 象 ， 这 只 是 网 络 设备 驱动 程序 框 
架 的 一 个 基本 步骤 ， 因 为 归根 结 底 ， 系 统 中 的 网 络 设备 并 不 只 单单 同系 统 注册 一 下 就 可 以 
大 功 告 成 ， 需 知 它 最 核心 的 功能 是 用 来 收发 网 络 数据 包 ， 除 此 之 外 还 需要 提供 一 些 配置 与 
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统计 等 功能 。 网 络 设备 驱动 程序 提供 的 所 有 这 些 功 能 的 集合 我 们 称 之 为 设备 方法 ， 本 节 将 
桨 述 网 络 设备 驱动 程序 如 何 具 体 实现 这 些 方法 。 


此 处 再 要 提请 读者 注意 的 是 ， 现 实 世界 的 网 络 设备 往往 千差万别 ， 而 设备 方法 的 实现 很 明 
显要 依赖 于 具体 的 硬件 环境 ， 这 对 本 书 的 撰写 是 一 种 挑战 。 所 以 -- 个 比较 折 中 的 方法 是 ， 
如 同 第 5 章 “ 中 断 处 理 ” 里 采用 的 方法 那样 ， 从 不 同 的 硬件 设备 环节 中 提取 出 具有 共性 的 
东西 加 以 归纳 阐述 ， 虽 然 它 不 是 针对 某 一 特定 的 硬件 设备 ， 但 是 因为 操作 原理 的 相似 性 ， 
读者 很 容易 将 本 书 中 描述 的 那些 共性 的 原则 加 以 推广 与 引申 , 使 之 适用 于 手边 的 硬件 设备 。 
设备 方法 定义 在 net_device 结构 的 const struct net_device_ops *netdev_ops 成 员 中 ，struct 
net device ops 的 定义 为 : 
<inclueninuxnetdeviceh> - 


struct net device ops { 


int (*ndo_init)(struct net device *dev); 
void (*ndo uninit)(struct net device *dev); 
int (*ndo open)(struct net device *dev); 
int (*ndo stop)(struct net device *dev); 
netdev tx t (*ndo start xmit) (struct sk buff *skb, 
struct net device *dev); 
ul6 (*ndo select queue)(struct net device *dev, 
struct sk buff *skb); 
void (*ndo change rx flags)(struct net device *dev, 
int flags); 
void (*ndo set rx mode)(struct net device *dev); 
void (*ndo set multicast list)(struct net device *dev); 
int (*ndo set mac address)(struct net device *dev, 
void *addr); 
int (*ndo validate addr)(struct net device *dev); 
int (*ndo do ioctl)(struct net device *dev, 
struct ifreq *ifr, int cmd); 
int (*ndo set configY(struct net device *dev, 


struct ifmap *map); 


int (*ndo change mtu)(struct net device *dev, 
int new mtu); 
int (*ndo neigh setup)(struct net device *dev, 
struct neigh parmis *); 
void (*ndo tx timeout) (struct net device *dev); 


struct net device stats* (*ndo get stats)(struct net device *dev); 


void (*ndo vlan rx register)(struct net device *dev, 
struct vlan group *grp); 
void (*ndo vlan rx add vid)(struct net device *dev, 


unsigned short vid); 
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void (*ndo vlan rx kill vid)(struct net device *dev, 
unsigned short vid); 
Hifdef CONFIG NET POLL CONTROLLER 


void (*ndo poll controllerY(struct net device *dev); 

void (*ndo netpoll cleanup)(struct net device *dev), 
#endif 

int (*ndo set vf mac)(struct net device *dev, 


int queue, ug *mac}, 
int (*ndo set vf vlan)(struct net device *dev, 
int queue, ulg vlan, u8 qos); 
int (*ndo set vf tx rate)(struct net device *dev, 
int vf, int rate); 


int (*ndo get vf config)(struct net device *dev, 
int vf, 
struct ifla vf info *ivf); 
int (*ndo set vf port)(struct net device *dev, 
int vf, 


struct nlattr *port[]); 
int (*ndo_get_vf_port)(struct net_device *dev, 
int vf, struct sk buff *skb); 
Hif defined(CONFIG FCOE) || defined(CONFIG FCOE MODULE) 


int (*ndo fcoe enable)(struct net device *dev); 
int (*ndo fcoe disable)(struct net_device *dev); 
int (*ndo fcoe ddp setupMstruct net device *dev, 
ul6 xid, 
struct scatterlist *sgl, 
unsigned int sgc); 
int (*ndo fcoe ddp done)(struct net device *dev, 
ul6 xid); 


#define NETDEV FCOE WWNN 0 
define NETDEV FCOE. WWPN 1 
int (*ndo fcoe get wwn)(struct net device *dev, 
u64 *wwn, int type); 

ftendif 

h 
这 是 个 颇 为 全 面 的 针对 网 络 设 备 的 操作 集 ， 限 于 篇 幅 原 因 这 里 并 不 打算 详细 介绍 其 中 每 个 
成 员 函 数 的 实现 策略 ， 在 此 我 们 会 选择 现实 中 使 用 最 多 最 核心 的 一 些 成 员 ， 来 曾 述 其 在 设 
备 驱 动 程 序 中 的 实现 机 制 。 需 要 说 明 的 是 ， 对 于 设备 驱动 程序 而 言 ， 一 个 网 络 设备 对 象 操 
作 集中 的 国 数 是 可 选 的 ， 这 意味 者 驱动 程序 需 万 根据 目 己 所 管理 设备 的 实际 功能 决定 实现 
哪些 函数 ， 如 果 某 一 功能 在 驱动 程序 中 没有 实现 ， 那 么 对 应 的 函数 指针 应 该 是 个 空 指针 。 


12.3.1 设备 初始 化 


int (*ndo_init)(struct net device *dev) 
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这 个 函数 我 们 在 前 面 讨论 网 络 设备 的 注册 时 ， 在 register netdev 函数 中 已 经 看 到 过 它 的 身 
影 ， 正 如 名 称 所 提示 的 那样 ， 该 函数 用 来 对 当前 正在 问 系 统 注 册 的 网 络 设备 对 象 做 一 些 晚 
期 阶段 的 初始 化 工作 。 这 里 之 所 以 说 晚期 阶段 的 初始 化 工作 ， 是 因为 在 前 面 讨论 用 于 分 配 
一 个 net_device 对 象 的 alloc netdev 函数 时 ， 已 经 看 到 过 alloc netdev 会 对 分 配 出 的 
net device 对 象 的 部 分 成 员 进 行 初始 化 的 工作 ， 所 以 当 设 备 驱 动 程序 调用 register netdev PA 
数 向 系统 注册 一 个 网 络 设 备 对 草 时 ， 如 果 访 设备 对 测 的 net device ops 操作 集中 定义 了 
ndo init 函数 ， 它 将 有 机 会 被 register_ netdev PASTA]. FW alloc netdev 中 的 初始 化 更 
多 是 从 内 模 的 角度 产生 的 一 个 通用 的 过 程 ， 而 如 果 设 备 需要 一 些 特 定 的 与 众 不 同 的 初始 化 
工作 ， 则 不 应 该 忽略 掉 此 处 的 ndo init PAA. ndo init 函数 的 执行 过 程 如 果 失 败 ， 应 该 返回 
-个 铺 误 码 ， 后 者 将 由 register_netdevy 毅 数 返回 ， 这 也 意味 着 设备 注册 过 程 的 失败 。 


在 net device ops 操作 集中 与 ndo_init 函数 对 应 的 是 ndo_uninit， 很 显然 这 是 个 ndo init 的 
逆 问 过 程 ， 所 以 它 在 驱动 程序 中 主要 在 一 些 收 拾 残局 的 场景 中 被 使 用 ， 比 如 在 
register netdev 函数 中 ， 如 果 在 ndo init 函数 调用 之 后 的 一 些 流 程 中 出 现 非 正 常 的 情况 ， 
ndo_uninit 将 有 机 会 被 调用 以 恢复 ndo. init 所 做 的 一 些 工作 , 再 或 者 比如 当 设 备 所 在 的 模块 
从 系统 中 移 除 时 所 调用 的 unregister netdev 函数 ，ndo uninit 也 有 机 会 被 执行 到 。 


12.3.2 设备 接口 的 打开 与 停止 


当 设 备 所 在 的 网 络 接口 被 激活 时 ， 比 如 使 用 ifconfig 激活 某 一 网 络 接 口 时 ， 接 口 将 被 打开 。 
此 时 如 果 对 应 的 驱动 程序 提供 了 ndo open 函数 ， 邦 么 它 将 被 调用 。 不 同 设备 的 ndo_open 
消 数 所 完成 的 工作 也 是 不 一 样 的 ， 这 里 并 没有 一 个 通用 的 准则 ， 一 些 常见 的 操作 包括 分 配 
接收 /发 送 网 络 数据 包 所 需要 的 资源 ， 初 始 化 设备 的 硬件 中 断 并 向 系统 注册 中 断 ， 启 动 
watchdog 定时 器 ， 通 知 上 层 网 络 子 系统 当前 接口 已 就 绪 等 ， 不 一 而 论 。 与 之 相反 的 过 程 则 
RETE ndo stop 函数 中 ， 它 在 当前 的 网 络 设备 接 口 被 关闭 shutdown、deactive…) 时 被 调 
用 ， 通 常 完成 的 工作 与 ndo open 相反 。 


12.3.3 ”数据 包 的 发 送 


这 古本 章 要 重点 讨论 的 内 容 之 一 ， 因 为 网 络 设备 的 核心 功能 就 是 发 送 和 接收 数据 包 。 数 据 
包 的 发 送 函 数 实现 在 net. device ops 的 ndo start xmit 成 员 中 ， 其 原型 是 ;: 


netdev tx t (*ndo start xmit) (struct sk buff *skb, struct net device *dev); 


参数 skb 的 类 型 struct sk_bu 任 是 网 络 设备 驱动 程序 中 另 一 个 重要 的 数据 结构 ， 通 常 叫做 套 
接 字 缓 冲 区 ， 本 章 接 下 来 会 有 专门 一 节 讨 论 该 数据 结构 及 内 核 提 供 的 操作 该 结构 对 象 的 相 
基 接 口 函数 ， 目 前 只 要 知道 待 发 送 的 数据 包 的 数据 就 包含 在 skb BA PRBT, MERA 
体 一 些 ，skb->data 指 问 要 发 送 的 数据 包 在 内 存 中 的 位 置 ， 而 skb->len 则 是 以 字 节 为 单位 的 
该 数据 包 的 长 度 。 第 二 个 参数 dev 自然 就 是 本 次 用 来 发 送 网 络 数 据 包 的 设备 对 象 了 。 
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不 同 于 网 络 数据 包 的 接收 ， 发 送 过 程 算 得 上 是 个 同步 的 过 程 ， 当 Linux 内 核 中 的 网 络 子 系 
统 上 层 部 分 有 数据 包 需 要 发 送 时 ， 它 将 通过 网 络 设备 的 ndo start xmit 函数 来 发 送 该 数据 
和 包 ， 网 络 设备 驱动 程序 的 核心 任务 之 一 恒 是 实现 该 函数 。 很 显然 ， 这 是 个 跟 具 体 的 网 络 设 
备 硬 忻 相关 的 函数 ， 作 为 一 般 的 规则 ， 驱 动 程序 通常 需要 使 用 DMA 的 方式 将 套 接 字 缓冲 
区 中 的 数据 传输 到 网 络 设备 的 存储 室 间 中 ， 然 后 由 网 络 设 备 的 硬件 逻辑 负责 把 设备 存储 空 
间 中 蜀 接 收 到 的 数据 发 送出 去 ， 在 数据 成 功 发 送 后 ， 设 备 会 产生 一 个 硬件 中 断 以 通知 驱动 
程序 进行 相应 的 处 理 ， 比 如 释放 上 层 传 下 来 的 套 接 字 缓冲 区 ， 进 行 数据 统计 等 。 这 里 为 了 
叙述 方便 ， 抽 和 象 出 图 12-4 所 示 模 型 来 描述 设备 驱动 程序 实现 发 送 函 数 的 一 般 性 原理 ; 


C) 
e rndo start xmit 








© scm 
图 12-4 网络 设 备 驱动 程序 数据 包 发 送 模型 


图 中 ， 当 网 络 子 系统 上 层 有 数据 包 要 发 送 时 ， 通 过 调用 网 络 设备 驱动 例 程 中 实现 的 
ndo start xmit 锅 数 ， 将 要 发 送 的 数据 包 封装 在 套 接 字 缓 冲 区 skb 参数 中 。 在 驱动 程序 的 发 
送 数据 包 国 数 的 具体 实现 中 ， 它 将 首先 在 skb 数据 包 所 在 主 存 中 的 数据 块 和 网 络 设备 内 部 
的 设备 内 存 间 建立 一 个 DMA 通道 ， 然 后 启动 该 DMA 通道 将 数据 包 由 主 存 传输 到 设备 内 
FTP, 之 后 便 是 由 网 络 设备 的 硬件 逻辑 的 电气 特性 来 完成 通过 诸如 RJ45 等 接口 向 外 部 世界 
发 送 设 备 内 存 中 新 接收 的 数据 。 网 络 设备 的 数据 成 功 发 送 完毕 后 ， 将 向 处 理 器 发 出 一 个 硬 
件 中 断 , 如 此 驱动 程序 的 中 断 处 理 例 程 便 会 参与 进来 做 一 些 数 据 包 发 送 后 的 善后 处 理工 作 。 


在 上 面 的 过 程 中 , 我 们 看 到 由 于 DMA 通道 的 源 端 数据 所 在 的 缓冲 区 skb->data 来 自 于 内 核 的 
网 络 系统 上 层 ， 换 言 之 它 不 属于 驱动 程序 所 能 控制 的 范围 之 内 ， 所 以 现实 中 为 了 建立 对 应 的 
DMA 映射 一般 多 采用 流 式 DMA 上 映射， 当然 原理 上 采用 一 致 性 映射 也 是 可 行 的 ， 不 过 因 
为 需要 在 skb->data 与 一 致 性 缓冲 区 之 间 进 行 拷贝 操作 ， 因 而 可 能 会 付出 性 能 上 的 代价 。 

好 奇 心 强 的 读者 也 许 会 希望 了 解 从 ndo start xmit 往 上 去 的 代码 执行 路 径 的 相关 细节 , 这 其 
实 已 经 超出 了 网 络 设备 驱动 程序 的 范畴 ， 因 为 它 将 进入 Linux 内 核 的 网 络 子 系统 部 分 ， 这 
是 个 极其 庞大 复杂 的 模块 ， 详 细 地 讨论 它 也 许 需要 一 两 本 书 的 容量 。 不 过 在 此 我 们 可 以 简 
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单 阐述 一 下 协议 高 层 的 代码 如 何 与 底层 的 ndo. start. xmit 关联 起 来 ,直接 调用 ndo start. xmit 
的 是 一 个 叫做 dev hard start xmit 的 函数 ， 它 定义 在 net/core/dev.c WEP, Jedi X dE X. 
在 同一 文件 中 的 dev. queue xmit 函数 所 调用 ， 它 的 原型 是 ， 


int dev_queue_xmit(struct sk_buff *skb) 
在 它 的 实现 中 ， 我 们 会 看 到 用 来 发 送 当前 skb 的 设备 已 经 包含 在 了 skb 的 dev 成 员 中 ， 


struct net_device *dev = skb->dev; 


这 意味 着 更 高 层 的 代码 在 调用 到 dev queue xmit 时 ， 其 实 已 经 获得 了 用 来 发 送 本 次 数据 包 
隐 底 层 网 络 设 备 ， 如 果 由 此 上 潮 ， 将 可 以 看 到 从 socket APY 系统 调用 到 网 络 设备 驱动 程序 
最 终 发 送出 一 个 数据 包 的 奇妙 旅程 。 


还 是 回 到 当前 的 主题 ， 理 想 情 况 下 ， 在 新 建 的 DMA 通道 成 功 地 将 套 接 字 缓 冲 区 skb 中 的 
数据 传输 到 设备 内 存 后 ， 网 络 设备 的 硬件 发 送 逻 辑 会 圆满 完成 本 次 发 送 任务 。 然 而 事实 并 
非 总 是 如 想象 中 的 那样 美好 与 理想 化 ， 软 件 层面 的 高 速 性 与 实际 硬件 的 发 送 速度 几乎 总 是 
会 仔 在 闻 盾 ， 此 时 作为 网 络 设备 驱动 程序 员 ， 必 须 提 供 相 应 的 处 理 机 制 以 尽 可 能 确保 在 数 
据 包 的 传输 过 程 中 不 会 出 现 丢 包 的 现象 ， 这 个 话题 也 是 本 章 后 续 小 节 要 讨论 的 内 容 。 


为 使 以 上 的 讨论 具体 化 ， 这 里 给 出 一 个 网 络 设备 驱动 程序 中 数据 包 发 送 函 数 的 具体 实现 代 
但 3。 以 下 代码 片段 来 自 某 一 ARM 平台 : 


static int 
fec_enet_start_xmit(struct sk_buff *skb, struct net_device *dev) 


( 


struct fec enet private *fep; 
volatile fec t *fecp; 
volatile cbd t *bdp; 
unsigned short status; 
unsigned long flags; 


fep = netdev priv(dev); 
fecp = (volatile fec t*)dev--base addr; 


if (!fep->link) { 
/* Link is down or autonegotiation is in progress. */ 
return |; 


} 


spin_lock_irqsave(&fep->hw_lock, flags); 


3 该 网 络 驱 动 程 序 基于 早期 的 Linux 版 本 ， 此 处 主要 用 来 展示 -个 具体 的 实例 。 
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/* Fill in a Tx ring entry */ 
bdp = fep-»cur tx; 


status = bdp-—cbd sc; 
/* Clear all of the status flags.*/ 
status &- -BD ENET TX STATS; 


/* Set buffer length and buffer pointer.*/ 
bdp--cbd bufaddr- pa(skb--data); 
bdp->cbd_datlen = skb->len; 


[* 
* On some FEC implementations data must be aligned on 
*  4-byte boundaries. Use bounce buffers to copy data 
* and get it aligned. Ugh. 
=f 
if ((bdp->cbd_bufaddr) & FEC ALIGNMENT) | 
unsigned int index; 
index = bdp - fep->tx_bd_base; 
memepy(fep->tx_bounce[index], (void *) skb->data, skb->len); 
bdp-^»cbd bufaddr- _pa(fep->tx_bounce[index]); 


/* Save skb pointer.*/ 
fep->tx skbuff[fep-2skb cur] = skb; 


dev-»stats.tx bytes += skb->len; 
fep->skb_cur = (fep->skb_cur+1} & TX RING MOD MASK; 


/* Push the data cache so the CPM does not get stale memory 
* data. 
*j 
fec dcache flush range( va(bdp->cbd_bufaddr),  va(bdp->cbd_buffaddr) + 
bdp->cbd_datlen); 


/* Send it on its way. Tell FEC it's ready, interrupt when done, 
* it's the last BD of the frame, and to put the CRC on the end. 
" 

status |= (BD ENET TX READY | BD ENET TX INTR 

|BD ENET TX LAST|BD ENET TX TC); 
bdp-—cbd sc = status; 


dev->trans_ start = jiffies; 


/* Trigger transmission start */ 
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fecp->fec_x_des_active = 0x01000000; 


/* If this was the last BD in the ring, start at the beginning again*/ 
if (status & BD ENET TX WRAP) { 
bdp = fep->tx_bd_ base; 
} else { 
bdp++; 
} 
/*flow control, tell the uplayer don't send the package now*/ 
if (bdp == fep--dirty tx) { 
fep->tx_full= 1; 
netif stop queue(dev); 


} 


fep->cur_t = (cbd t *)bdp; 
spin unlock irgrestore(&fep-^-hw lock, flags); 


return 0; 


; 


上 述 代 码 是 一 个 基于 FEC (Fast Ethernet Controller) 的 发 送 数 据 包 的 函数 ， 硬 件 设备 会 接 
收 一 个 被 称 为 缓冲 区 描述 符 (Buffer Descriptor》 的 数据 对 人 铺 ， 它 非常 类 似 于 常见 的 DMA 
描述 符 ， 里 面包 含有 缓冲 区 的 地 址 以 及 待 操作 数据 包 的 长 度 ， 控 制 器 也 会 根据 数据 包 的 实 
际 上 发送 与 接收 的 操作 结果 更 新 该 描述 符 中 的 状态 字段 ， 因 为 与 实际 硬件 关联 性 非常 大 ， 所 
以 此 处 不 会 详细 讲解 该 fec_enet start xmit。 可 以 看 到 这 个 函数 的 主体 框架 采用 了 典型 的 流 
X DMA 映射 来 建立 DMA 通道 以 传输 skb 中 的 网 络 数据 包 ， 其 中 fec_dcache flush range 
函数 的 调用 目的 是 在 进行 DMA 传输 前 将 当前 DMA 源 地 址 对 应 的 cache 中 的 数据 flush 到 
主 存 中 ,以 防止 DMA 因 cache 存在 的 缘故 将 陈旧 的 数据 传输 给 网 络 设 备 。 在 这 之 后 ， 函 数 
用 fecp->fec_x_des_active = 0x01000000 来 操作 硬件 设备 的 寄存 器 以 触发 DMA 传输 操作 ， 
后 者 就 完全 是 网 卡 硬件 多 辑 要 完成 的 事情 了 : 将 系统 主 存 中 的 数据 包 通 过 内 置 的 DMA 控 
制 器 传输 到 其 内 部 的 缓冲 区 (设备 内 存 、FIFO 等 ) 中 ， 然 后 借助 网 线 等 物理 传输 介质 将 数 
据 发 送出 去 。 当 一 个 数据 包 被 成 功 发 送出 去 ， 或 者 发 送 过 程 中 出 现 了 错误 状况 ， 网 卡 设备 
将 以 中 岂 的 方式 通知 其 驱动 程序 。 


需要 注意 的 是 ， 网 络 子 系统 高 层 传 下 来 的 套 接 字 缓 冲 区 需要 由 设备 驱动 程序 在 完成 一 次 
DMA 传输 后 负责 释放 ， 设 备 驱 动 程序 一 般 在 中 断 处 理 例 程 中 完成 这 个 任务 4， 所 以 在 上 面 
的 fec enet start xmit 函数 中 设 有 看 到 类 似 dev kfree skb(skb) 这 样 的 调用 。 关 于 释放 skb 


4 严格 意义 上 , 成 功 发 送出 去 的 数据 包 所 在 的 skb 直 正 的 释放 工作 在 函数 net tx action 中 完成 , 它 是 NET_TX_SOFTIRQ 
所 对 应 的 softirq 处 理 例 程 。 内 核 认为 释放 skb 缓冲 区 是 一 项 比较 标 时 的 操作 ， 而 驱动 程序 中 的 中 断 处 理 例 程 只 应 完成 
最 关键 的 操作 。 


500 RA Linux 设备 驱动 程序 内 核 机 制 


的 话题 ， 将 在 后 续 的 “中 断 处 理 ” 和 “ 套 接 字 缓 冲 区 ”小 节 中 予以 讨论 。 


如 果 对 数据 包 的 发 送 过 程 作 个 简单 小 结 ， 那 就 是 : 一 个 数据 包 的 发 送 过 程 逻辑 上 可 以 分 成 
两 个 独立 的 部 分 ， 按 照 时 间 顺 序 ， 分 别 是 网 络 子 系统 部 分 和 设备 驱动 程序 部 分 。 网 络 子 系 
统 部 分 在 整个 Linux 网 络 部 分 源码 中 是 独立 于 底层 的 网 络 硬件 的 ， 出 于 性 能 及 可 靠 性 等 因 
素 的 考虑 , 网 络 子 系统 部 分 实现 有 一 个 传输 队列 , 系统 中 每 个 CPU 部 拥有 目 己 的 传输 队列 ， 
每 个 要 发 送 的 数据 包 都 会 先 放 到 传输 队列 中 。 真 正 的 发 送 过 程 发 生 在 网 络 设备 驱动 程序 所 
实现 的 ndo_start_xmit 函数 中 ,后 者 的 实现 依赖 于 具体 的 硬件 设备 , 通常 硬件 在 当前 帧 传输 
结束 时 会 以 中 断 的 方式 通知 驱动 程序 。 


12.3.4 网络 数据 包 发 送 过 程 中 的 流 控 机 制 


理想 情况 下 网 络 数 据 包 的 发 送 也 许 很 简单 ， 在 软件 的 控制 下 由 建立 好 的 DMA 通道 去 传输 
数据 就 可 以 了 ， 但 是 现实 情况 往往 比较 复杂 ， 比 如 当 ndo_start_xmit 函数 返回 时 ， 并 不 意味 
着 实际 的 硬件 设备 网卡) 已 将 设备 内 存 中 刚刚 获得 的 数据 包 全 部 成 功 发 送 了 出 去 。 换 句 
话说 ， 软 件 层面 的 ndo_start_xmit 调用 过 程 与 网 络 设 备 的 实际 数据 发 送行 为 之 间 是 异步 的 ， 
其 各 目的 行为 是 独立 的 。 


由 此 带 来 的 问题 是 ， 当 内 核 的 网 络 子 系统 有 新 的 数据 包 需 要 发 送 时 ， 它 可 能 会 再 次 调用 
ndo start xmit 函数 ， 当 后 者 被 调用 时 ， 前 次 的 调用 所 传递 到 了 网络 设 备 内 存 的 数据 包 也 许 还 
没有 发 送 完 。 问 题 的 本 质 在 于 网 络 子 系统 的 高 层 代 码 可 以 快速 “发 送 ” 大 量 的 数据 包 ， 但 
是 底层 网 络 设备 的 实际 发 送 速度 无 法 与 之 匹配 ， 内 核 因 此 需要 维护 一 个 发 送 队 列 ， 显 然 这 
对 提升 网 络 系统 的 性 能 是 有 帮助 的 。 如 果 将 这 个 问题 稍稍 扩大 : 内 核子 系统 上 层 组 件 在 很 
短 的 时 间 里 调用 了 大 量 的 ndo_start_xmit 函数 ，CPU 执行 这 个 过 程 总 是 很 快 ， 但 是 网 络 设 
备 将 其 内 在 存储 区 中 的 数据 包 发 送出 去 就 没有 那么 神速 了 ， 于 是 此 种 情况 导致 的 一 个 显 而 
易 见 的 问题 是 ， 网 络 设备 的 设备 内 存 空间 会 很 快 被 消耗 光 ， 而 下 也 没有 能 力 去 接收 网 络 子 
系统 高 层 所 发 送 来 的 数据 包 。 


针对 这 种 情况 ， 驱 动 程 序 需要 一 种 机 制 ， 当 发 现 网 络 设备 的 内 部 存储 空间 暂时 无 法 使 用 时 ， 
可 以 通知 网 络 子 系统 的 高 层 暂停 数据 包 的 发 送 ， 显 然 这 是 一 种 软件 层面 的 流 控 机 制 ， 可 以 
避免 对 CPU 资源 的 无 谓 浪费 , 如 果 内 核 提 前 得 知 下 层 的 网 络 设备 不 可 能 将 一 个 数据 包 成 功 
发 送出 去 ， 就 没有 必要 再 去 调用 驱动 程序 中 实现 的 发 送 函 数 。 一 个 更 为 智能 的 内 核 行为 也 
许可 以 通过 对 发 送 队 列 的 仔细 观察 来 洞察 底层 硬件 的 发 送 结果 ， 从 而 决定 是 否 调 用 驱动 程 
序 的 ndo start xmit 函数 来 发 送 当前 的 分 组 ， 但 无 论 是 逻辑 上 还 是 实现 的 复杂 度 上 ， 让 驱动 
程序 主动 告知 内 核 要 更 加 自然 ， 因 为 没有 谁 比 设备 驱动 程序 自身 更 了 解 其 所 控制 的 硬件 行 
为 。 驱 动 程序 所 要 完成 的 这 种 流 挖 机制 显 然 需 要 来 自 内 核 中 网 络 子 系统 代码 的 支持 ， 内 核 
为 此 专门 给 设备 驱动 程序 提供 了 这 样 一 个 函数 netif stop queue， 该 函数 的 主要 作用 是 让 设 
备 驱 动 程序 告诉 内 核 的 网 络 子 系统 高 层 当前 底层 的 网 络 设备 硬件 无 法 继续 传输 数据 包 ， 
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高 层 代码 需要 停止 数据 包 的 发 送 。 这 个 函数 的 实现 非常 简单 ， 我 们 把 它 稍 作 改写 ， 其 代码 
如 下 : 


«include/linux/netdevice. h> 
static inline void netif_stop_queue(struct net device*dev) SS 
{ 
struct netdev_queue *dev queue = &dev->_tx(0}; 
set_bit(_ QUEUE STATE XOFF, &dev_queue->state); 


} 


netif stop queue 其 实 就 是 将 net device 对 银 dev 中 的 发 送 队 列 tx[0] 的 状态 state 的 
. QUEUE STATE XOFF 位 置 |， 后 者 是 一 netdev queue state t 类 型 的 枚 举 变量 ， 用 来 表 
不 net device 对 象 中 队列 的 状态 。netdev_queue state t 在 内 核 中 的 定义 为 : 


<include/linux/netdevice. h> 


enum netdey queue state t ee anne 
__QUEUE_STATE_XOFF, 
. QUEUE STATE FROZEN, 


}; 
全 于 netif stop queue 为 什么 可 以 让 高 层 网 络 代码 停止 调用 ndo_start_xmit 函数 继续 发 送 网 


络 包 ， HARA netif _Stop | queue 在 内 核 中 的 调用 链 问 上 退潮 很 快 便 会 获得 答案 。 EAHA 
dev hard start xmit KA., UE Bon FARI: 


«net/core/dev. c> 


一 


int dev_hard start xmit(struct sk_buff *skb, struct net_ device *dev, 
struct netdev_queue *txq) 


see ee eee ER pe eRe ee ee ee a l ee ee ee eB ee er Eee ee ee ee ee lee lk 


i 
do { 
struct sk_buff *nskb = skb->next; 


skb->next = nskb->next: 
nskb->next = NULL; 


rc = ops->ndo_start_xmit(nskb, dev); 
txq trans update(txq); 
if (unlikely(netif tx queue stopped(txq) && skb->next)) 


retum NETDEV TX BUSY; 
} while (skb->next); 


} 


在 上 述 函 数 中 ， 与 数据 包 发 送 流 控 相 关 的 代码 出 现在 最 后 部 分 的 netif tx queue stopped fX 
码 中 ， 如 果 网 络 设备 驱 动 程序 调用 了 netif stop queue 函数 ， 那 么 当前 网 络 设备 对 象 dev 中 
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的 发 送 队列 状 态 中 的 _QUEUE STATE XOFF 将 被 置 位 ， 此 时 netif tx queue stopped(txq) 
将 返回 真 ， 如 果 skb->next 不 为 室 ， 意 味 着 有 下 一 个 数据 包 需 要 发 送 ，dev_hard_start_xmit 
函数 将 把 一 个 错误 码 NETDEV_TX_BUSY 传递 到 网 络 系统 的 丙 层 ,最 顶层 的 API 调用 极 可 
能 获得 一 个 类 似 “device busy” 的 错误 信息 ， 因 此 它 将 知道 当前 的 发 送 没 有 成 功 。 


与 netif stop queue 对 应 的 男 一 个 流 控 函数 是 netif start queue, 当 网 络 设备 驱动 程序 发 现 设 
备 可 以 继续 进行 数据 包 的 传输 时 , 应 该 调用 netif start. queue 函数 通知 上 层 可 以 继续 发 送 数 
据 包 。 可 以 很 容易 想象 出 netif start queue 函数 的 实现 应 该 只 是 清除 掉 被 netif stop queue 
f 1 的 _QUEUE STATE XOFF 位 ， 下 面 是 netif start queue 在 内 核 中 的 实现 ; 


<jnclude/linux/netdevice.h> 


TT 


static inline void netif_start_queue(struct net_device *dev) 


{ 
struct netdev queue *dev queue = &dev->_tx[0]; 
clear biti QUEUE STATE XOFF, &dev queue--state); 


} 


现实 中 的 网 络 设备 驱动 程序 需要 根据 实际 情况 决定 如 何 调用 netif stop queue 和 
netif start queue 函数 。 一 个 典型 的 情形 是 ， 当 打开 一 个 网 络 设备 的 接口 时 【〔 此 时 设备 驱动 
程序 中 的 ndo open 函数 被 调用 )， 驱 动 程序 需要 调用 netif start queue 以 告诉 内 核 ， 网 络 子 
系统 高 层 代 码 可 以 调用 dev hard start xmit 进行 数据 包 的 发 送 ， 与 此 相反 ， 当 一 个 网 络 设 
备 接口 被 关闭 时 《此 时 设备 驱动 程序 中 的 ndo close 函数 被 调用 )， 对 应 的 驱动 程序 应 该 调 
用 netif stop queue 以 通知 上 层 代 码 。 


流 控 中 的 另 一 个 重要 的 函数 是 netif wake queue， 相 对 于 netif start queue ifj zi, 
netif wake queue 不 仅 需 要 考察 当前 设备 发 送 队 列 的 _QUEUE STATE XOFF 状态 位 ， 还 
需要 考察 当前 设备 发 送 队 列 的 qdisc 成 员 所 对 应 的 状态 QDISC STATE SCHED 。 
netif_wake queue WAP RAN BÉ (EX d ORE. 如 果 当 前 设备 发 送 队 列 的 
. QUEUE STATE XOFF 位 被 置 1， 则 清除 之 ， 紧 接着 考察 当前 设备 发 送 队 列 qdise 成 员 的 
. QDISC STATE SCHED 位 有 没有 被 置 1, 如 果 是 表明 当前 设备 的 发 送 队 列 尚 未 加 入 CPU 
的 发 送 队 列 【 由 一 个 per-CPU 型 的 struct softnet data 变量 来 管理 ) 中 ， 将 其 加 到 CPU 发 送 
队列 尾部 同时 调用 raise_softirq irqoff(NET TX SOFTIRQ) 来 触发 发 送 中 断 处 理 流 程 的 下 半 
段 〈softirq)。 图 12-5 揭示 了 netif_wake_queue 的 处 理 流程 。 


所 以 netif start queue 只 是 简单 地 清除 发 送 队 列 的 _QUEUE STATE XOFF 比特 位 , 并 不 触 
发 数据 包 的 发 送 流程 ， 而 netif wake queue 在 清除 QUEUE STATE XOFF 之 后 ， 会 有 机 
会 重新 触发 网 络 子 系统 数据 包 的 传输 流程 。 


设备 驱动 程序 在 以 下 两 种 典型 的 情况 下 使 用 netif wake queue: 
e Æ IHE (watchdog timer) 超时 ， 此 种 情形 下 驱动 程序 的 ndo tx timeout 函数 会 
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被 内 核 调用 以 重新 配置 NIC， 使 得 因 某 种 原因 挂 起 的 NIC 可 以 重新 开始 工作 。 在 网 络 
设备 挂 起 的 时 间 段 内 ， 在 当前 的 设备 上 可 能 存在 其 他 的 传输 尝试 ， 因 此 当 看 门 狗 定时 
器 超时 重 置 NIC 之 后 ， 驱 动 程序 需要 调用 netif wake queue 先 开 启 队 列 ， 然 后 为 设备 
调度 以 重新 发 送 在 设备 挂 起 期 间 进 入 到 发 送 队 列 的 数据 包 。 此 种 情况 可 以 引申 到 因 网 
络 设备 的 硬件 错误 所 导致 的 中 断 处 理 例 程 中 ， 在 那里 驱动 程序 同样 需要 调用 
netif wake queue 来 将 设备 重新 纳入 网 络 子 系统 的 高 层 调度 体系 中 。 


netif wake queue 
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图 12-5  netif wake queue 处 理 流 程 


昌 ” 当 设备 通过 中 断 通知 红 动 程序 可 以 进行 数据 包 的 传输 时 《在 此 之 前 ， 驱 动 程序 通常 的 
做 法 是 : 因 设 备 无 法 进行 数据 包 的 传输 而 通知 高 层 关 闭 传 输 队 列 ), 在 中 断 处理 例 程 中 ， 
设备 应 该 被 唤醒 ， 因 为 同样 存在 者 设备 队列 被 关闭 期 间 发 生 传 输 的 可 能 性 ， 所 以 此 种 
情况 下 设备 驱动 程序 需要 调用 netif wake queue 来 为 当前 设备 的 传输 进行 重新 调度 ,与 
此 类 似 的 一 个 情形 是 ，NIC 在 一 次 DMA 传输 之 后 中 断 处 理 器 ， 告 知 数 据 包 发 送 完毕 ， 
中 断 处 理 例 程 在 通过 netif queue stopped 得 知 当 前 设备 传输 队列 被 关闭 的 情形 下 应 该 
调用 netif wake queue 重启 队列 。 


与 网 络 数据 包 发 送 路 径 相 对 应 ， 在 接收 数据 包 的 路 径 上 同样 存在 类 似 的 流 控 机 制 ， 关 于 这 
个 话题 将 延 后 到 “数据 包 的 接收 ”一 节 中 了 予以 讨论 。 


12.3.5 传输 超时 ( watchdog timeout ) 


对 于 网 络 子 系统 高 层 传 下 来 的 数据 包 ， 如 果 网 络 设备 在 指定 的 时 间 内 因 某 种 原因 而 没有 发 
送出 去 ， 则 会 产生 所 谓 传输 超时 的 问题 。 显 然 ， 这 里 需要 某 种 机 制 来 发 现 这 个 问题 ， 实 际 
的 Linux x 系统 使 用 定时 器 来 处 理 这 一 问题 。 幸运 的 是 , Linux 内 核 中 网 络 子 系统 模块 已 设计 
有 相应 的 框架 来 应 对 此 种 状况 ， 因 此 对 网 络 设备 驱动 程序 而 言 ， 针 对 传输 超时 间 题 所 采取 
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的 措施 相对 比较 简单 。 基 本 上 有 两 个 步骤 需要 在 驱动 程序 中 完成 : 一 个 是 在 net device 实 
例 所 代表 的 网 络 设备 对 象 dev 的 成 员 watchdog timeo 上 设 定 超时 定时 器 的 到 期 时 间 ; 另 一 
个 则 是 实现 net device ops 中 的 ndo tx timeout 国 数 ， 当 watchdog timeo 设 定 的 时 间 到 期 
时 ， 该 函数 将 被 网 络 子 系统 的 代码 所 调用 ， 设 备 驱动 程序 可 以 在 自己 的 ndo tx timeout Pf 
数 实现 中 完成 对 传输 超时 间 题 的 处 理 。 


在 进一步 讨论 ndo tx timeout 函数 可 能 需要 完成 的 任务 前 ， 我 们 打算 用 一 定 的 篇 幅 讨论 内 
核 的 网 络 子 系统 是 如 何 与 设备 驱动 程序 中 的 ndo tx timeout 函数 合作 来 共同 完成 对 可 能 出 
现 的 传输 超时 间 题 的 处 理 的 。 事 情 的 源 起 也 许 要 回溯 到 前 面 已 经 讨论 过 的 register netdev 
函数 中 ， 在 它 的 调用 链 中 有 一 个 名 为 dev init scheduler 的 函数 ， 其 源码 实现 为 : 


<net/sched/sch_generic.c> 
void dev_init_scheduler(struct net_device *dev) 
{ 
dev->qdisc = &noop qdisc; 
netdev for each tx queue(dev, dev init scheduler queue, &noop qdisc); 
dev init scheduler queue(dev, &dev-»rx queue, &noop qdisc); 
setup timer(&dev--watchdog timer, dev watchdog, (unsigned long)dev); 


} 


该 函数 的 实现 中 与 此 处 讨论 的 主题 相对 应 的 是 最 后 一 行 函数 调用 setup_timer， 后 者 为 当前 
网 络 设备 的 watchdog timer 定时 器 设 定 了 一 个 到 期 函数 dev_watchdog ， 很 显然 当 
watchdog timer 对 象 中 的 expires 成 员 所 指定 的 时 间 到 期 后 , dev. watchdog 函数 将 会 被 调用 。 
现在 的 问题 是 ，Linux 系统 中 谁 来 负责 设 定 网 络 设 备 对 象 的 watchdog timer 成 员 中 的 到 期 
时 间 expires? 另外 ,网 络 设备 对 象 中 的 watchdog timeo 成 员 又 是 如 何 与 watchdog timer 建 
立 起 联系 的 ? 换言之 ， 当 watchdog timeo 所 指定 的 时 间 到 期 后 ，ndo_tx_timeout 是 如 何 被 
调用 的 ? 


答案 是 ， 当 一 个 网 络 设备 接口 被 打开 时 ， 一 个 名 为 ”netdev watchdog up 的 函数 最 终 将 被 
调用 ， 以 下 是 其 完整 实现 ; 


<net/sched/sch_generic.c> 


— AAA oom om o ee 


void —netdev watchdog up(struct net device *dev) 
{ 
if (dev->netdev_ops->ndo_tx_timeout) { 
if (dev->watchdog_timeo <= 0) 
dev->watchdog_timeo = 5*HZ; 
if (mod timer(&dev--watchdog, timer, 
round jiffies(jiffies + dev->watchdog_timeo))) 
dev hold(dev); 
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TE mod timer RIAL, — netdev watchdog up 使 用 了 round jiffies(jiffies + dev->watchdog timeo) 
来 设 定 dev->watchdog timer 中 的 expires. 


如 此 ， 当 dev->watchdog timeo 所 设 定 的 时 间 到 期 时 ，dev->watchdog timer 定时 器 中 的 到 期 
国 数 将 会 被 调用 。 之 前 看 到 在 向 系统 注册 一 个 网 络 设备 时 由 dev_ init scheduler 指定 了 到 期 
pki #24) dev watchdog， 其 核心 实现 是 : | 


<net/sched/sch_generic.c> 
static void dev watchdog(unsigned long arg) 


{ 
struct net_device *dev = (struct net_device *)arg; 


for (i = 0; i < dev->num_tx_queues; i++) { 
struct netdev queue *txq; 
txq = netdev get tx queue(dev, i); 
/* 
* old device drivers set dev->trans_start 
i 
trans start = txq-^trans start ? : dev-—trans start; 
if (netif tx queue stopped(txq) && 
time after(jiffies, (trans start +dev->watchdog_timeo))) ( 
some queue timedout — 1; 
break; 


} 
if (some_queue_timedout) { 


dev->netdev_ops->ndo_tx_timeout(dev); 

} 

if (!Imod timer(&dev-^watchdog timer, round jiffies(jiffies +dev->watchdog_timeo))) 
dev hold(dev); 


j 


函数 的 总 体 思 想 是 ， 如 果 发 现 某 一 传输 队列 处 于 停止 状态 并 且 当 前 已 经 过 了 指定 的 超时 时 
间 ， 将 导致 对 当前 网 络 设备 对 象 的 ndo tx timeout 函数 的 调用 ， 因 此 设备 驱动 程序 有 机 会 
对 该 问题 进行 处 理 。 


关于 驱动 程序 中 ndo tx timeout 函数 要 完成 的 任务 ， 此 处 并 没有 一 个 通行 的 规则 ， 从 逻辑 
上 看 它 应 该 跟 驱 动 程序 中 传输 部 分 的 代码 联系 比较 紧密 ， 常 见 的 操作 包括 在 接口 的 统计 信 
县 中 记录 本 次 的 传输 错误 ， 调 用 netif wake queue 函数 以 重启 传输 队列 ， 有 时 甚至 需要 重 
新 reset 当前 网 络 设备 等 ， 总 之 跟 手 边 的 硬件 以 及 要 完成 的 功能 息息相关 。 
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12.3.6 ”数据 包 的 接收 


相对 于 网 络 数据 包 的 发 送 来 说 ， 接 收 过 程 要 稍微 复杂 些 ， 因 为 对 驱动 程序 而 言 ， 数 据 包 的 
到 达 是 随机 的 ， 头 似 于 一 个 卉 步 的 过 程 ， 通 币 当 网 络 设备 成 功 接收 到 一 个 数据 包 时 ， 和 需要 
通过 中 汤 的 方式 引起 驱动 程序 的 干预 。 不 同 的 网 络 设备 在 人 硬件 巡 辑 设计 上 并 不 相同 ， 在 赔 
入 式 领 域 ， 一 些 网 络 设备 只 需要 驱动 程序 提供 好 DMA WATT, ZENE IA RE ATF tb BC 
秆 好 的 情况 下 ， 当 网 络 说 备 成 功 地 接收 到 一 个 数据 包 时 ， 廊 数据 包 往 往 已 经 由 硬件 设备 自 
动 地 启动 DMA 传输 到 了 描述 符 所 指向 的 系统 主 存 空间 中 ， 同 时 硬件 设备 也 会 自动 更 新 描 
述 符 中 的 某 些 成 员 ， 比 如 本 次 接收 的 数据 包 的 长 度 等 。 


如 同 网 络 数据 包 的 发 送 一 样 ， 驱 动 程序 中 接收 数据 包 的 实现 方法 依然 依赖 于 具体 的 硬件 设 
备 ， 但 是 通常 驱动 程序 需要 负责 分 配 一 个 套 接 字 缓冲 区 skb 来 容纳 收 到 的 数据 包 ， 然 后 将 
skb 传递 到 网 络 子 系统 的 上 层 代码 中 ， 后 者 负责 释放 该 skb 所 占用 的 内 存 。DMA 的 操作 在 . 
这 个 过 程 中 常常 作为 一 个 关键 的 步 又 而 存在 ， 它 将 网 络 设备 接收 到 的 外 部 数据 包 从 设备 内 
仓 传 输 到 系统 内 人 存 中 ， 现 在 所 见 到 的 几乎 所 有 网 卡 设备 都 支持 DMA 操作 ， 能 够 自发 地 将 
接收 到 的 数据 包 传 输 到 系统 主 存 中 。 作 为 一 种 通用 的 抽象 ， 图 12-6 展示 了 底层 网 络 设 备 接 
收 到 一 个 数据 包 时 设备 驱动 程序 中 的 处 理 流 程 模型 : 






| struct sk buff*skb - ) 
Q oe 
图 12-6 ”网 络 设备 驱动 程序 数据 包 接 收 模 型 


与 图 12-4 中 的 发 送 模型 不 同 ， 在 图 12-6 中 ， 驱 动 程序 中 的 控制 流程 由 网 络 设备 的 中 断 所 
发 起 。 通常 网 络 设备 驱动 程序 在 其 初始 化 过 程 中 都 会 针对 所 控制 的 网 络 设备 注册 一 个 中 断 
处 理 例 程 ， 网 络 设备 中 的 很 多 情况 都 会 引起 一 个 中 断 从 而 将 代码 的 执行 路 径 引 入 到 该 中 断 
处 理 例 程 中 。 网 卡 设备 接收 到 一 个 数据 包 便 是 其 中 极为 典型 的 一 种 ， 当 该 中 断 发 生 时 ， 网 
卡 设备 接收 到 的 数据 包 可 能 还 在 其 自身 的 设备 内 存 中 ， 当 然 也 可 能 已 经 通过 网 卡 自 身 的 
DMA 便 件 逻辑 传 物 到 了 系统 主 存 中 ,这 依赖 于 手头 硬件 的 具体 功能 。 但 不 管 怎样 ,在 这 种 
情况 下 网 络 设 备 豫 动 程序 都 需要 分 配 一 个 套 接 字 缓 冲 区 skb， 然 后 调用 netif_rx(skb) 将 数据 
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包 传递 到 网 络 子 系统 的 高 层 代 码 中 。 分 配 一 个 套 接 字 缓 冲 区 skb 并 确保 数据 包 从 设备 内 存 
传输 到 了 skb ATTRA ASAT, 然后 冉 调 用 netif_rx(skb) 是 网 络 设备 驱动 程序 中 数据 包 接 
收 的 经 典 处 理 流程 。 


本 来 任务 可 以 到 此 结束 ， 但 是 还 有 一 些 细 节 值 得 挖掘 一 下 ， 细 心 的 读者 应 该 已 注意 到 
netif rx 函数 的 调用 是 在 中 断 人 处 理 例 程 中 发 生 的 , 换 句 话说 netif rx 要 运行 在 中 断 上 下 文中 ， 
所 以 需要 尽 可 能 快 地 返回 以 使 CPU 可 以 接收 下 一 个 中 断 。 不 过 基于 网 络 子 系统 的 多 层 协议 
的 复杂 性 ， 如 果 要 通过 netif rx 发 动 的 调用 链 将 接收 到 的 数据 包 最 终 传 递 到 最 后 的 接收 者 
那里 ， 时 间 上 的 开销 一 定 不 会 小 而 且 也 不 现实 。 内 核对 此 的 解决 方法 是 大 家 都 熟悉 的 所 谓 
软 中 断 softirq， 好奇 的 读者 可 以 沿 着 netif rx 函数 往 上 追溯 一 下 , 它 其 实 是 将 接收 到 的 数据 
包 放 到 一 个 接收 队列 上 5s， 然 后 触发 NET_ RX SOFTIRQ 软 中 断 。 在 netif rx HAASE, fb 
发 该 软 中 断 的 任务 由 napi schedule 函数 完成 ， 在 内 核 中 的 源码 为 ; 


<net/core/dev.c> 


struct napi struct *napi) 
1 
list add tail(&napi-^poll list, &sd->poll_ list); 
. raise softirg irgofffNET RX SOFTIRQ); 
} 


而 对 应 NET RX SOFTIRQ 的 软 中 断 处 理 例 程 则 早 在 Linux 系统 启动 的 初始 化 阶段 便 由 
net dev init 函数 完成 了 ; 


«net/core/dev.c» 


static int — init net dev init(void) 


i 


open softirg(NET TX SOFTIRQ, net tx action); 
open softirq(NET RX SOFTIRQ, net rx action); 


} 


对 net rx action 等 函数 的 讨论 已 经 超出 了 本 书 的 范围 ， 那 是 内 核 中 网 络 子 系统 要 完成 的 任 
务 ， 大 体 上 它们 需要 将 接收 队列 上 的 网 络 数据 包 向 高 层 传递 。 对 于 驱动 程序 而 言 ， 我 们 现 
在 知道 netif rx 要 做 的 事情 其 实 相当 明确 ， 将 接收 到 的 数据 包 加 入 一 个 队列 ， 触 发 一 个 软 
中 断 标志 位 。 正 因 如 此 ，netif_rx 在 中 断 上 下 文中 可 以 快速 返回 ， 返 回 时 基本 上 就 意味 着 接 
收 数 据 包 的 中 断 处 理 任务 已 经 完成 ， 可 以 退出 中 断 上 下 文 了 。 对 驱动 程序 员 而 言 ， 看 看 
netif rx 项 数 的 原型 也 许 更 为 重要 ，; 


5 为 了 在 多 处 理 器 系统 上 获得 最 佳 的 性 能 , 内 核 为 系统 中 每 个 CPU 都 分 配 这 样 一 个 接收 队列 内核 为 此 定义 了 一 个 数据 
结构 struct softnet_data, EEA per-CPU 变量 被 使 用 ， 
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<include/linux/netdevice.h> 


extern int netif rx(struct sk bulf *skb); 


函数 有 两 个 返回 值 NET RX SUCCESS 和 NET RX DROP, h È netif rx 返回 
NET_RX_DROP， 意 味 着 网 络 子 系统 中 的 接收 队列 已 经 用 满 ， 理 论 上 在 这 种 情形 下 设备 驱 
动 程序 不 应 再 调用 netif_rx, 但 是 大 多 数 的 网 络 设备 驱动 程序 并 不 关注 这 里 的 返回 值 ， 因 为 
既然 无 法 阻止 数据 包 的 到 来 (这 是 个 异步 的 过 程 )， 那 么 与 其 关闭 网 卡 的 接收 功能 ， 倒 不 如 
直接 让 上 层 去 处 理 更 安全 ， 所 以 也 就 很 少 有 张 动 程序 去 关心 netif rx 的 返回 值 了 。 


最 后 , 在 结束 本 节 的 讨论 前 , 我 们 也 给 出 一 个 网 络 设 备 驱动 程序 中 接收 数据 包 的 示例 代码 ， 
以 使 得 读者 建立 一 个 具体 的 印象 ， 下 面 的 代码 片段 依然 来 目 于 某 ARM 平台 ， 对 它 的 调用 
出 现在 一 个 中 断 处 理 例 程 中 : 


Static void 
fec enet rx(struct net device *dev) 
{ 
struct fec_enet_private *fep; 
volatile fec_t *fecp; 
volatile cbd t *bdp; 
unsigned short status; 
struct sk buff *skb; 
ushort pkt len; 
. u$ *data; 
int rx index ; 


fep = netdev priv(dev); 
fecp = (volatile fec t*)dev-—base addr; 


spin lock irg(&fep--hw lock); 


/* First, grab all of the stats for the incoming packet. 
* These get messed up if we get called due to a busy condition. 
*/ 

bdp = fep->cur_rx; 


while (!((status = bdp->cbd_ sc) & BD ENET RX EMPTY)) | 
rx_index = bdp - fep->rx_bd_ base; 
if (!fep->opened) 
goto rx_processing done; 


/* Check for errors. */ 
if (status & (BD ENET RX LG| BD ENET RX SH|BD ENET RX NO | 
BD ENET RX CR|BD ENET RX OV))( 
dev->stats.rx_errors++; 
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if (status & (BD ENET RX LG| BD ENET RX SH)) { 

/* Frame too long or too short. */ 
dev->stats.rx_length_errors++; 

i 

if (status & BD ENET RX NO)  /* Frame alignment */ 
dev->stats.rx_frame_errors++; 

if (status & BD ENET RX CR) /* CRC Error */ 
dev->stats.rx_cre_errorst++; 

if (status & BD ENET RX OV) /* FIFO overrun */ 
dev->stats.rx_fifo_errors++; 


/* Report late collisions as a frame error. 
* On this error the BD is closed, but we don't know what we 
* have in the buffer. So, just drop this frame on the floor. 
+I 
if {status & BD ENET RX CL) | 
dev->stats.rx_errors++; 
dev-»stats.rx frame errorsi-; 


goto rx processing done; 


/* Process the incoming frame. 
n 
dev->stats.rx_packets++, 
pkt len = bdp-»cbd datlen; 
dev--stats.rx bytes += pkt len; 
data=(__u8*) va(bdp-»cbd bufaddr); 
fec dcache inv range(data, data*pkt len -4); 


skb = dev alloc skb(FEC ENET RX FRSIZE); 


struct sk buff * pskb = fep-^rx skbuff[rx index]; 
fep-^rx skbuff[rx index] = skb; 
skb->data = FEC_ADDR_ALIGNMENT(skb->data); 
bdp->cbd bufaddr= pa(skb->data); 
skb_put(pskb,pkt_len-4); /* Make room */ 
skb — pskb; 
skb--protocol-eth type trans(skb,dev); 
netif rx(skb); 

rX processing done: 


status &= -BD ENET RX STATS; 
status|- BD ENET RX EMPTY; 
bdp->cbd_ sc = status; 


510 RA Linux 19 && B a FEE PEZ vbt 


/* Update BD pointer to next entry. 

E 

if (status & BD ENET RX WRAP) 
bdp = fep-^rx bd base; 

else 


bdp; 
| /* while (!((status = bdp->cbd_sc) & BD ENET RX EMPTY)) */ 


fep-2cur rx = (cbd t *)bdp; 
spin unlock irq(&fep--hw lock); 
} 


出 于 篇 幅 的 原因 ， 对 该 函数 的 代码 进行 了 一 定 的 删 减 ， 保 留 了 最 能 体现 接收 函数 特点 的 部 
分 。 接 收 数据 包 依 然 使 用 了 DMA 传输 的 方式 ， 也 是 典型 的 流 式 DMA 上 映射， 同时 为 了 确 
保 CPU 能 获得 正确 的 接收 数据 包 , 在 建立 流 式 DMA 缓冲 区 前 调用 了 fec_dcache_inv_range 
以 确保 DMA 通道 的 目标 地 址 所 对 应 的 cache 无 效 ， 这 样 当 DMA 传输 完成 ，CPU ME 
中 读 取 接收 到 的 数据 包 时 将 不 会 只 读 取 到 cache 中 的 数据 。 男 外 ， 我 们 注意 到 网 络 设备 驱 
动 程 序 的 接收 函数 需要 负责 为 本 次 接收 到 的 数据 包 分 配套 接 字 缓冲 区 skb， 这 是 通过 
dev alloc skb AŠOKA. SAA n DMA 通道 成 功 地 由 设备 内 存 传输 到 主 
fF PRY, BRUSH] netif_rx(skb) 将 该 数据 包 传 递 给 网 络 子 系统 的 高 层 代 人 码 。 


12.4 ” 套 接 字 缓 ;中 区 


对 于 套 接 字 缓 冲 区 struct sk. buff *skb 读者 现在 也 许 并 不 防 生 ,前 面 已 经 看 到 了 对 它 的 使 用 ， 
只 不 过 到 目前 为 止 还 没有 对 它 详 细 讨 论 而 已 。 从 软件 层面 的 角度 ，skb 在 网 络 协 议 各 层 之 
则 流动 ， 起 着 沟通 各 层 间 互动 的 类 似 桥梁 作用 。 我 们 在 此 人 处 讨论 它 ， 则 更 多 是 从 设备 驱动 
程序 的 角度 出 发 ， 了 解 其 一 些 重 要 成 员 的 作用 ， 以 及 内 核 为 操作 该 数据 对 象 所 提供 的 一 些 
接口 国 数 ， 如 此 读者 才能 在 实际 的 网 络 设备 驱动 程序 的 编号 中 娴熟 地 使 用 对 应 的 各 种 函数 
来 操作 skb。 另 外 如 果 读 者 对 Linux 内 核 中 网 络 子 系统 的 高 层 代码 感 兴趣 ,也 需要 此 处 讨论 
的 内 容 ， 因 为 对 skb 的 使 用 会 频繁 出 现在 网 络 组 件 的 大 部 分 关键 场合 。 


下 面 是 经 过 适当 精简 后 的 struct sk_bufr 数据 结构 在 内 核 源码 中 的 定义 : 


<include/linux/skbuff.h> 

struct sk buff | 
/* These two members must be first. */ 
struct sk buff *next; 
struct sk buff *prev; 


ktime t tstamp; 
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struct sock *sk; 
struct net device *dev; 


[* 
* This is the control buffer. It is free to use for every 
* layer. Please put your private variables there. If you 
* want to keep them across layers you have to do a skb clone() 
* first. This is owned by whoever has the skb queued ATM. 


= 
char cb[48] — aligned(8); 
unsigned long _skb_refdst; 
unsigned int len, data_len; 
__ul6 mac len, hdr len; 
union { 
__wsum csum; 
struct | 
. ul6 csum start; 
. ul6 csum offset; 
h 
E 
|. u32 priority; 
kmemcheck bitfield begin(flagsl); 
. us local df:], 
cloned: 1, 
ip summed:2, 
nohdr: 1, 
nfctinfo:3; 
. us pkt type:3, 
fclone:2, 
ipvs property:l, 
peeked:1, 
nf trace:1; 
kmemcheck bitfield end(flagsl); 
_ belé protocol; 
void (*destructor)(struct sk buff *skb); 
int skb iif, 
| u32 rxhash; 


kmemcheck bitfield begin(flags2); 
J ul6 queue mapping:16; 
kmemcheck bitfield end(flags2); 


/* 0/14 bit hole */ 
union { 
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. u32 mark; 

| u32 dropcount; 
i 
_ ul vlan tci; 
sk buff data t transport header; 
sk buff data t network header; 
sk buff data t mac header; 
/* These elements must be at the end, see alloc skb() for details. */ 
sk buff data t tail; 
sk buff data t end; 
unsigned char *head, *data; 
unsigned int truesize; 
atomic t users; 


E 
网 络 设备 驱动 程序 中 经 常 要 使 用 到 的 一 些 成 员 如 下 : 
struct net device — *dev 
当前 用 于 发 送 和 接收 该 套 接 字 缓 冲 区 的 网 络 设备 对 象 。 
sk_buff_data_t transport_header 
对 应 网 络 传输 层 协 议 头 部 数据 的 地 址 。 
sk buff data t network. header 
对 应 网 络 层 协议 头 部 数据 的 地 址 。 
sk buff data t mac header 
对 应 网 络 MAC 层 协 议 头 部 数据 的 地 址 。 


sk_buff_data_t tail 
Sk buff data t end 


unsigned char *head, *data 


指向 套 接 字 缓 冲 区 中 数据 的 指针 。 其 中 ，head 指向 一 个 已 分 配 空间 的 头 部 ，end 指向 
该 空间 的 尾部 ，data 指向 这 部 分 空间 中 有 效 数据 的 头 部 ，tail 指向 该 有 效 数据 的 尾部 。 当 一 
个 套 接 字 缓 冲 区 在 网 络 各 协议 层 间 交互 流动 时 ，head 和 end 这 两 个 值 是 不 变 的 ， 而 data 和 
tail 则 会 在 各 层 中 由 相应 的 模块 根据 需要 进行 修改 , 以 容纳 或 者 剥离 对 应 的 有 效 数据 .因此 ， 
上 上述 四 个 值 其 实 是 指向 同一 内 存 块 的 不 同位 置 ， 后 者 所 在 的 内 存 区 域 由 alloc skb 函数 负 
责 分 配 。 通 过 改变 指针 位 置 而 不 是 数据 拷贝 或 者 移动 的 方式 来 管理 套 接 字 缓冲 区 中 的 数据 ， 
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n] LA SEF ER TE RCE. 
unsigned int len, data len 


len 和 古 该 套 接 字 绥 冲 区 中 全 部 数据 的 长 度 , 包 括 上 述 data 指 癌 的 数据 和 end 后 面 分 片 数 
据 的 总 长 ， 而 data_len 只 是 分 片 数据 段 的 长 度 。 


unsigned int truesize 


该 成 员 变 量 表 示 sk buff 所 在 空间 加 数据 区 的 大 小 ， 可 以 简单 认为 truesize = 
sizeof(sk buff) + len. 


atomic t users 


组 剖 区 当前 的 引用 计数 ， 用 以 决定 是 否 释放 该 缓冲 区 。 如 果 该 值 不 为 1, RAMA 
块 在 使 用 这 片 缓冲 区 ， 出 于 安全 方面 的 考虑 ， 系 统 此 时 将 不 会 释放 掉 它 。 


以 上 简单 介绍 了 sk buff 中 一 些 常 见 成 员 变量 的 作用 ， 接 下 来 讨论 内 核 提 供 的 一 些 操作 
sk buff HJ rA Ži: 


O  alloc skb 


用 来 分 配 一 个 套 接 字 缓 冲 区 skb 及 其 所 对 应 的 数据 区 data， 函 数 原 型 为 : 
a Se de SR e EI ETT 

struct sk buff *alloc skb(unsigned int size, gfp t priority) 3 
参数 size 表示 当前 要 分 配 的 套 接 字 缓 冲 区 所 对 应 的 数据 区 的 大 小 。 函 数 的 内 部 通过 调用 
. alloc skb 来 做 实际 的 内 存 分 配 ，_ alloc skb 函数 的 核心 实现 为 ; 


<net/core/skbuff.c> 


structsk buff* alloc skb(unsigned int size,gfp tgfp mask, — = = 
int fclone, int node) 


t 
struct kmem cache *cache; 
struct skb shared info *shinfo; 
struct sk. buff *skb; 
us *data; 


cache — fclone ? skbuff fclone cache : skbuff head cache; 


/* Get the HEAD */ 
skb = kmem cache alloc node(cache. gfp mask & ~ GFP DMA, node); 


size - SKB DATA ALIGN(size); . 
data = kmalloc node track caller(size + sizeof(struct skb shared info), 
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gfp mask, node); 


/* 
* Only clear those fields we need to clear, not those that we will 
* actually initialise below. Hence, don't put any more fields after 
* the tail pointer in struct sk. buff! 
Tj 

memset(skb, 0, offsetof(struct sk buff, tail)); 

skb->truesize = size + sizeof(struct sk buff); 

atomic set(&skh--users, 1); 

skb->head = data; 

skb->data = data; 

skb reset tail. pointer(skb); 

skb->end = skb->tail + size; 


return skb; 
| 


因为 sk buff 在 Linux 网 络 子 系统 中 分 配 和 释放 的 频率 非常 高 ， 所 以 内 核 采 用 kmem cache 
的 内 存 分 配方 式 来 分 配 sk_bu 人 ff 的 空间 ,了 解 这 种 内 存 分 配方 式 的 读者 一 定 会 猪 到 在 系统 初 
始 化 期 间 会 有 对 kmem cache create 的 调用 来 产生 这 里 的 skbuff fclone cache 和 
skbuff_head_cache 两 个 全 局 变量 。 事 实 的 确 如 此 ， 在 Linux 系统 初始 化 期 间 ， 通 过 调用 链 
sock _init()>skb initO 来 产生 这 两 个 变量 ; 


i 
skbuff head cache = kmem cache create("skbuff head cache", 


sizeof(struct sk buff), 
0, 
SLAB HWCACHE ALIGN|SLAB PANIC, 
NULL); 
skbuff fclone cache = kmem cache create("skbuff fclone cache", 
(2*sizeof(struct sk. buff)) + 
sizeof(atomic t), 
0, 
SLAB HWCACHE ALIGN|SLAB PANIC, 
NULL); 
} 


. alloc skb 函数 中 接 下 来 的 一 个 重要 步骤 是 调用 kmalloc node track caller 来 分 配 sk buff 
中 的 数据 空间 data, kmalloc_node_track caller 函数 最 终 调用 kmalloc 来 为 套 接 字 缓冲 区 
sk_buff 的 数据 区 分 配 空间 ， 所 以 它们 在 物理 地 址 空间 是 连续 的 ， 了 解 这 点 对 网 络 设备 驱动 
程序 中 正确 使 用 DMA 操作 很 重要 。 函数 的 最 后 是 对 分 配 后 的 sk. bu 作对 象 进行 必 要 的 初始 
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化 ,此 处 为 了 便于 读者 理解 ,我们 将 alloc_skb 分 配 出 来 的 skb 和 data 空间 的 关联 用 图 12-7 
来 表示 5; 





0x0000 0000 OxFFFF FFFF 


图 12-7 alloc skb 分 配 出 的 skb 与 data 空间 示意 图 


当 一 个 套 接 字 缓冲 区 对 象 skb 在 网 络 子 系统 的 各 协议 层 之 间 流 动 时 ， 各 层 通 过 改变 
skb->data 和 skb->tail 的 值 来 获得 当前 层 对 应 的 协议 数据 首 地 址 ， 而 无 须 显 式 地 进行 内 存 复 
制 等 操作 ,图 12-8 展示 了 一 个 skb 所 对 应 的 数据 包 从 TCP 层 传 递 到 MAC 层 时 各 协议 层 所 
对 应 的 skb->data 值 的 变化 ， 如 果 是 接收 数据 包 ， 则 这 个 过 程 正好 相反 ， 





数据 包 
skb j skb 
[cma | 
[m Eo end 
EL LJ * -— 





图 12-8 skb 所 在 的 数据 包 依次 通过 TCP. IP 和 MAC IZ BT data 指针 的 变化 


为 了 便于 各 协议 层 操作 ， 在 skb 中 的 transport header, network header 和 mac header 成 员 
分 别 等 同 于 网 络 数据 包 在 TCP J. IP 层 和 MAC 层 时 的 skb->data 值 。 


O dev alloc skb 


函数 原型 如 下 : 

struct sk buff *dev_alloc_skb(unsigned int length) 
该 函数 也 用 来 分 配 一 个 套 接 字 缓 冲 区 和 数据 区 , 其 最 终 的 分 配 工作 是 通过 调用 alloc_skb 来 
完成 的 , 但 与 alloc_skb 不 同 的 是 ，dev_alloc_skb 在 分 配 内 存 时 会 使 用 GFP ATOMIC 标志 ， 


6 alloc skb 实际 分 配 出 的 data 空间 比 图 中 的 size 要 大 - 些 ， 因 为 在 data 底部 会 有 -部 分 空间 用 来 容纳 struct 
skb shared info 对 象 ， 但 对 驱动 程序 而 言 ， 不 必 理 会 这 一 部 分 额外 空间 。 
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同时 会 在 分 配 出 的 数据 区 头 部 保留 一 段 大 小 为 NET_ SKB PAD 的 室 间 供 网 络 层 优化 使 用 ， 
驱动 程序 不 会 使 用 到 该 保留 区 域 。 因 此 ， 如 果 驱 动 程序 需要 在 中 断 上 下 文中 分 配 一 个 套 接 
字 缓 冲 区 ， 应 该 使 用 dev_alloc_skb. 


O kfree skb dev kfree skb、dev_ kfree skb irq 5 dev kfree skb any 


这 四 个 函数 都 用 来 释放 一 个 套 接 字 缓冲 区 skb 及 其 所 对 应 的 数据 空间 ， 其 函数 原型 实质 上 
是 一 样 的 : 

void kfree skb(struct sk buff *skb); 

void dev kfree skb(struct sk buff *skb); 

void dev kfree skb irg(struct sk buff *skb); 

void dev kfree skb any(struct sk buff *skb); 


其 中 kfree skb 与 dev kfree skb 在 本 质 上 是 等 价 的 ， 都 是 通过 ”kfree skb 来 释放 skb 及 其 
对 应 的 数据 区 所 占有 的 内 存 空间 。 kfree skb 的 主要 操作 分 为 两 部 分 ， 一 是 调用 kfree ER 
数 释 放 skb 所 对 应 的 数据 空间 ， 二 是 通过 kmem cache free 来 释放 skb 对 象 所 占据 的 空间 。 


后 两 个 释放 函数 可 以 看 做 是 dev_kfree_skb 的 变 体 , 其 中 dev kfree skb irq 用 在 中 断 上 下 文 
中 或 者 硬件 中 断 关 闭 的 情况 下 ， 因 为 作为 一 个 通用 的 规则 ， 在 硬件 中 断 上 下 文中 ， 代 码 的 
执行 时 间 应 尽 可 能 短 ， 而 如 果 硬 件 中 断 关 闭 ， 为 了 防止 可 能 的 中 断 丢 失 也 应 尽快 完成 当前 
的 操作 。 我 们 可 以 看 看 dev kfree skb irq 在 内 核 中 的 源码 来 理解 为 什么 在 硬件 中 断 上 下 文 
环境 下 释放 一 个 skb 应 该 使 用 dev_kfree_skb irq: 
a OOP 
void dev kfree skb irq(struct sk buff *skb) 
{ 
if (atomic dec and test(&skb--users)) { 
struct softnet data *sd; 
unsigned long flags; 
local irq save(flags); 
sd— & get cpu var(softnet data); 
skb->next = sd->completion queue; 
sd->completion_queue = skb; 
raise_softirq_irqoff(NET_TX_SOFTIRQ); 
local irq restore(flags); 


} 


By UL, 5j dev kfree skb 函数 不 同 ，dev_ kfree skb irq 并 不 直接 在 其 内 部 释放 skb, TEE 
AE “A ERY skb 已 无 其 他 引用 者 时 ， 内 核 才 将 skb 放 到 一 个 完成 队列 ， 然 后 触发 软 
中 断 NET_TX_SOFTIRQ, 让 该 softirq 去 执行 skb 真正 的 释放 操作 。 这 显然 要 比 dev_kfree_skb 
中 直接 调用 _kfree_skb 函数 要 快 得 多 。 至 于 NET_TX SOFTIRQ 软 中 断 例 程 如 何 释放 此 处 
的 skb， 有 兴趣 的 读者 可 以 去 阅读 net tx action 函数 中 的 代码 。 
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最 后 一 个 函数 dev_kfree_skb_any 则 更 加 智能 , 它 可 以 自动 判断 当前 的 执行 路 径 是 不 是 处 在 
硬件 中 断 上 下 文中 或 者 硬件 中 断 关 闭 的 情况 下 ,根据 判断 的 结果 决定 是 调用 
dev kfree skb irq 还 是 dev kfree skb: 
void dev kfree skb any(struct sk buff *skb) 
1 
if (in. irq() || irqs disabled()) 
dev kfree skb irq(skb); 
else 
dev kfree skb(skb); 
} 


‘2 skb put 
图 数 原型 如 下 ; 
unsigned char *skb_put(struct sk_buff *skb, unsigned int len) 
该 函数 通过 向 后 移动 skb->tail 从 而 在 原来 的 tail 和 新 的 tail 之 间 开 辟 出 一 个 新 的 空间 。 


图 12-9 展示 了 调用 skb_put(skb, 64) 前 后 tail 指针 的 变化 ， 可 以 看 到 skb_put(skb, 64) 在 原来 
数据 块 的 尾部 拓展 了 一 个 大 小 为 64 字 节 的 空间 ， 





ai 
skb_put 调 用 后 


图 12-9 skb put(skb, 64) 调 用 前 后 对 比 
在 将 skb->tail 移 到 新 的 位 置 后 ， 老 的 tail 值 将 作为 返回 值 返回 。 
O  skb push 
函数 原型 如 下 : 
unsigned char *skb_push(struct sk_buff *skb, unsigned int len) 


与 skb put 相反 ， 该 函数 将 向 前 移动 skb->data, skb->data -= len， 这 样 将 在 原 数据 块 的 头 部 
拓展 出 一 个 大 小 为 len 的 空间 ， 然 后 将 移动 后 的 skb->data 值 返 回 。 


© skb headroom 
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函数 原型 如 下 : 


unsigned int skb headroom(const struct sk buff *skb) 
返回 skb->data 与 skb->head 之 间 的 空闲 空间 大 小 ， 也 即 skb->data - skb->head. 
2 skb tailroom 


函数 原型 如 下 : 


int skb tailroom(const struct sk_buff *skb) 
返回 skb->tail 49 skb->end 之 间 的 室 闲 空间 大 小 ， 也 即 skb->end - skb->tail. 
OQ  skb reserve 


FCU P UT 


void skb reserve(struct sk buff *skb, int len) 


该 函数 同时 将 skb->data 和 skb->tail 增加 参数 len 指定 的 字 节 数 , 这 样 将 为 skb 的 head 空间 
扩展 len 个 字 节 ， 该 增加 的 空间 从 tail 空间 里 补充 ， 相 当 于 减少 了 tail 空间 的 大 小 。 


当然 ， 内 核 提 供 的 操作 skb 的 函数 远 不 止 上 面 列 出 的 这 些 ， 其 他 一 些 函 数 因为 在 网 络 设备 
驱动 程序 中 用 到 的 几率 并 不 高 ， 所 以 本 书 不 再 一 一 列举 。 


12.5 中断 处 理 


现在 几乎 所 有 网 卡 都 支持 中 断 操 作 模式 ， 通 过 中 斯 的 方式 ， 网 卡 可 以 在 一 个 网 络 分 组 成 功 
发 送出 去 、 成 功 接收 到 一 个 网 络 分 组 或 者 是 硬件 内 部 出 现 错误 状态 时 通知 CPU 进行 处 理 。 
但 是 网 络 设备 驱动 程序 相对 于 其 他 一 般 设 备 有 其 自身 的 特殊 性 ， 比 如 在 高 负载 的 情况 下 ， 
网 络 设备 可 能 需要 接收 大 量 外 部 进来 的 数据 包 ， 这 种 密集 型 的 数据 包 接 收 对 于 网 络 设备 驱 
动 程序 中 的 中 断 处 理 程序 而 言 是 个 极 大 的 考验 。 设 备 驱 动 程序 实现 的 中 断 处 理 例 程 必须 完 
成 最 关键 的 操作 而 迅速 返回 以 为 下 一 次 的 中 断 到 来 作 好 准备 ， 它 应 该 将 一 些 耗 时 的 工作 延 
迟到 softirq 中 来 完成 。 内 核 为 此 定义 了 两 个 softirq， 分 别 用 于 应 对 发 送 和 接收 触发 的 软 中 
断 处 理 ， 它 们 是 NET_TX_SOFTIRQ 和 NET_RX_SOFTIRQ。 不 过 此 处 无 须 深入 讨论 这 两 
个 软件 中 断 的 内 部 机 制 ， 因 为 它们 跟 驱 动 程序 并 没有 直接 的 关联 。 
网 络 设备 驱动 程序 员 也 许 更 想 知 道 在 中 断 处 理 函 数 中 一 般 的 处 理 原 则 是 什么 ， 下 面 的 代码 
是 来 目 某 ARM 平台 上 的 一 个 典型 的 中 断 处 理 函 数 ， 

static irgretum t 


fec enet interrupt(int irq, void * dev id) 
{ 
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struct net_device *dev = dev_id; 
volatile fec t *fecp; 

uint int events; 

irqreturn t ret = [RQ NONE; 


fecp = (volatile fec t*)dev--base addr; 
/* Get the interrupt events that caused us to be here.*/ 
do { 
int events = fecp->fec_ievent; 
fecp->fec_jevent = int events; 


/* Handle receive event in its own function.*/ 

if (int events & (FEC ENET RXF|FEC ENET RXB)) | 
ret = IRO HANDLED; 
fec enet rx(dev); 


} 


/* Transmit OK, or non-fatal error. Update the buffer 
descriptors. FEC handles all errors, we just discover 
them as part of the transmit process. 

*/ 

if(int events & (FEC ENET TXF|FEC ENET TXB)) { 

ret = IRQ HANDLED: 
fec enet tx(dev); 


if (int events & FEC ENET MII) { 
ret = IRQ HANDLED; 
fec_enet_mii(dev); 


j 
} while (int events); 


return ret; 


} 


PACA EER A, “SPT ACE HARE MH fec enet interrupt 被 调用 时 ， 首 先 获 得 硬件 
设备 的 状态 寄存 器 的 信息 ， 然 后 根据 该 信息 判断 当前 中 断 的 类 型 .是 之 前 的 一 个 数据 包 被 
成 功 发 送出 去 产生 的 中 断 ， 还 是 硬件 接收 到 了 一 个 数据 包 ， 再 或 者 是 因为 硬件 的 其 他 状况 
(比如 内 部 出 现 错误 ) 而 产生 的 中 断 ， 函 数 会 根据 不 同 的 中 断 类 型 进行 相应 的 处 理 。 虽 然 不 
同 的 中 断 处 理 和 手边 的 硬件 密切 相关 ， 但 是 一 般 而 言 还 是 会 有 一 些 广泛 的 通用 原则 ， 比 如 
对 于 接收 中 断 的 处 理 ， 驱 动 程序 可 能 需要 分 配 一 个 skb 缓冲 区 ， 然 后 把 接收 的 网 络 数 据 包 
放 到 该 缓冲 区 中 , 之 后 调用 netif_rx(skb) 来 触发 NET RX SOFTIRQ 软 中 断 ， 而 对 于 发 送 成 
功 的 中 断 处 理 则 相对 比较 简单 ， 驱 动 程序 一 般 只 需要 更 新 一 些 统计 量 同时 负责 释放 上 层 代 
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码 传递 下 来 的 skb IEK. 


读者 也 许 注 意 到 上 述 fec_enet_interrupt 函数 的 主体 框架 建立 在 一 个 do…while 循环 结构 中 ， 
这 样 在 一 次 硬件 中 断 中 就 可 以 处 理 若干 个 外 部 进来 的 数据 包 ， 否 则 每 个 进入 的 数据 包 都 会 
引发 一 次 中 断 ， 由 此 带 来 的 系统 开销 相当 可 观 。 对 于 一 些 更 高 速 的 设备 ， 为 了 防止 频繁 的 
中 断 押 带 来 的 高 额 的 系统 开销 ，Linux 内 核 引 入 了 一 种 所 谓 的 NAPI 机 制 。 


12.6 NAPI 


很 明显 ， 内 核 为 网 络 设备 的 中 断 请 求 设 计 了 精密 的 处 理 框架 ， 然 而 即便 如 此 ， 对 于 高 速 网 
络 设备 而 言 ， 单 纯 采 用 中 断 驱 动 的 方式 ，CPU 仍 可 能 在 短 时 间 内 接收 到 大 量 密集 的 网 络 数 
据 包 ,如 琳 每 一 个 进入 的 数据 包 都 向 CPU 产生 一 次 中 断 请求 ， 对 这 些 请 求 单独 处 理 无 疑 会 
造成 CPU 资源 的 浪费 甚至 导致 系统 瘫痪 。 于 是 在 这 种 情况 下 , 一 种 被 称 为 NAPI(New API) 
的 处 理 模式 被 引入 到 了 内 核 中 。 


NAPI 的 设计 思想 其 实 是 结合 了 中 断 与 轮 询 的 各 自 优势 , 虽然 在 设备 驱动 程序 中 , 轮 询 的 名 
声 不 大 好 ， 但 并 非 一 无 是 处 ， 比 如 在 NAPI 的 机 制 中 。NAPI 简单 地 说 ， 就 是 当 有 数据 包 到 
达 时 将 会 触发 硬件 中 断 ， 在 中 断 处 理 中 关闭 中 断 ， 系 统 对 硬件 的 掌控 将 进入 轮 询 模式 ， 直 
到 所 有 的 数据 包 接收 完毕 ， 再 重新 开启 中 断 ， 进 入 下 一 个 中 断 轮 询 周期 。 显 然 在 系统 对 硬 
件 进 行 轮 询 期 间 ， 硬 件 可 能 会 接收 到 大 量 进入 的 数据 包 ， 但 是 它们 不 会 产生 中 断 。 


与 在 一 次 硬件 中 断 中 处 理 多 个 数据 包 不 同 ， 内 核 中 提供 了 对 NAPI 支持 的 框架 ， 因 此 如 果 
设备 驱动 程序 需要 利用 NAPI 带 来 的 益处 ， 则 需要 根据 内 核 中 实现 的 NAPI 机 制 提供 对 应 
的 支持 。 我 们 不 打算 详细 讨论 内 核 为 实现 NAPI 机 制 的 技术 细节 ， 此 处 仅 从 设备 驱动 程序 
的 角度 讨论 如 何 实现 对 NAPI 的 支持 。 

虽然 内 核 提供 了 对 NAPI 的 支持 ， 但 需要 注意 的 是 ， 并 不 是 每 个 网 络 设备 都 支持 NAPI BE 
作 ， 一 个 云 持 NAPI 操作 的 设备 至 少 应 该 满足 ， 

e 能 让 驱动 程序 关闭 分 组 接收 中 断 而 不 影响 其 他 的 中 断 , 因为 NAPI 主要 针对 接收 分 组 的 


操作 路 径 ， 在 内 核 轮 询 处 理 设备 接收 到 的 分 组 时 不 应 该 影响 其 他 的 中 断 进 入 处 理 器 ， 
比如 便 件 自身 的 错误 等 。 


© 设备 应 该 能 同时 保留 多 个 接收 到 的 分 组 ， 否 则 轮 询 将 失去 意义 ， 因 为 当 在 中 断 处 理 中 
处 理 一 个 接收 分 组 时 ， 后 续 进 入 的 分 组 将 被 直接 丢弃 从 而 失去 轮 询 的 必要 。 
内 核 为 支持 NAPI 机 制定 义 了 一 个 数据 结构 struct napi_struct: 


<include/linux/Netdevice.h> 


struct napi struct { 


TT 
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struct list head — poll list; 


unsigned long state; 


int weight, 
int (*poll)(struct napi struct *, int); 
unsigned int gro count; 


struct net_device *dev; 

struct list head — dev list; 

struct sk, buff *gro list; 
struct sk. buff * skb; 
È 
以 上 数据 结构 中 最 重要 的 成 员 是 poll list, weight 和 poll. ÑP poll list 用 来 将 当前 设备 放 
置 到 内 核 维 护 的 一 个 轮 询 列表 中 ; weight 表明 了 当前 设备 的 权重 〈 如 果 某 一 设备 上 长 时 间 
连续 接收 到 分 组 ， 不 至 于 使 系统 中 其 他 设备 失去 被 轮训 的 机 会 )， 当 内 核 在 多 个 设备 之 间 轮 
询 时 ， 该 值 用 来 赋予 对 一 个 设备 进行 轮 询 处 理 的 时 间 宽 度 ; poll 是 一 个 函数 指针 ， 驱 动 程 
序 需要 实现 这 个 函数 ， 它 将 在 内 核对 当前 设备 轮 询 时 被 调用 。 


设备 驱动 程序 中 需要 分 配 一 个 struct napi. struct WR, ATR MMA Ve $8 RA AC 
的 私有 数据 区 ， 然 后 驱动 程序 需要 调用 netif_napi_add 来 对 其 初始 化 , 该 函数 在 内 核 中 的 实 
BL: 
Na iuc oe 
void netif napi add(struct net device *dev, struct napi struct *napi, 
int (*poll)(struct napi struct *, int), int weight) 
{ 
INIT_LIST_HEAD(&napi->poll_list), 
napi->gro_count = 0; 
napi->gro list = NULL; 
napi->skb = NULL; 
napi->poll = poll; 
napi->weight = weight; 
list_add(&napi->dev_list, &dev->napi_list); 
napi->dev = dev; 
set bit(NAPI STATE SCHED, &napi->state); 
} 


国 数 主要 用 于 初始 化 struct napi. struct 的 对 象 指针 napi, 参数 poll 是 设备 驱动 程序 中 需要 实 
现 的 内 核 用 来 轮 询 当前 设备 的 函数 。 
设备 驱动 程序 在 poll 中 主要 负责 接收 后 续 到 达 的 网 络 数 据 包 ， 当 发 现 所 处 理 的 数据 包 数 量 


{KF poll 函数 的 第 二 个 参数 指定 的 配额 时 ， 将 调用 napi complete 来 退出 轮 询 模式 ， 同 时 打 
开设 备 的 接收 中 断 。 
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设备 驱动 程序 在 完成 上 述 任 务 后 就 完成 了 对 NAPI 的 支持 ， 假 设 一 个 数据 包 的 到 来 触发 了 
驱动 程序 的 中 断 处 理 例 程 ， 在 那里 netif_rx 被 调用 用 来 通知 网 络 子 系 统 的 高 层 数据 包 到 达 ， 
由 此 进入 的 netif_rx enqueue_to_backlog 调用 链 将 把 当前 设备 加 到 struct softnet_data 对 象 
的 poll list 链表 中 , 之 后 在 接收 分 组 中 断 的 下 半 部 NET_RX SOFTIRQ 对 应 的 net rx action 
中 将 会 操作 struct softnet data {HH poll list 链表 ， 其 中 的 每 个 元 素 代表 一 个 需要 轮 询 的 
设备 ， 内 核 将 调用 该 元 素 的 poll 函数 ， 它 正 是 设备 驱动 程序 之 前 实现 的 以 轮 询 方式 处 理 当 
前 设备 接收 到 的 分 组 的 函数 。 


12.7 ”本章 小 结 


本 章 讨论 了 Linux 设备 驱动 世界 的 第 三 类 设备 一 一 网 络 设备 ， 因 为 内 核 代码 中 的 网 络 子 系 
统 是 个 极其 复杂 的 结构 ， 所 以 这 些 技术 细节 不 是 本 书 要 讨论 的 主题 ， 但 是 作为 讲述 网 络 设 
备 驱动 程序 内 核 机 制 的 书籍 ， 在 讨论 网 络 设备 驱动 程序 相关 主题 时 将 不 可 避免 地 要 进入 网 
络 子 系统 的 某 些 细节 内 幕 。 正 是 因为 网 络 系统 涉及 的 范围 极其 宽广 ， 所 以 本 章 主要 从 网 络 
设备 的 数据 结构 抽象 ， 网 络 设备 注册 以 及 网 络 设备 实现 的 方法 入 手 ， 试 图 让 读者 对 网 络 设 
备 驱动 程序 的 内 幕 细节 有 个 比较 深入 的 理解。 


本 章 中 ， 大 量 的 篇 幅 集中 在 网 络 数据 包 的 发 送 和 接收 上 ， 因 为 这 是 一 个 NIC 设备 驱动 程序 
要 实现 的 核心 功能 。 就 驱动 程序 本 身 而 言 , 发送 与 接收 数据 包 的 功能 实现 与 硬件 紧密 相关 ， 
但 一 般 的 流程 是 ， 对 于 发 送 路 径 ， 高 层 网 络 代码 负责 分 配 skb 以 存储 网 络 数据 包 ， 然 后 将 
该 skb 传 到 驱动 程序 的 发 送 函 数 中 。 驱 动 程序 的 发 送 函 数 一 般 会 使 用 DMA 来 将 位 于 主 存 
中 的 skb 传输 到 网 络 设备 内 存 中 ， 再 由 硬件 逻辑 发 送出 去 。 硬 件 在 成 功 发 送 完 一 个 数据 帧 
后 ， 通 常会 以 中 断 的 方式 通知 处 理 器 ， 接 下 来 相应 驱动 程序 的 中 断 处 理 函 数 被 调用 来 处 理 
这 种 情况 。 对 于 成 功 发 送 分 组 产生 的 中 断 ， 在 其 中 断 处 理 函 数 中 会 释放 该 分 组 所 在 的 skb。 
对 于 接收 路 径 而 言 ， 底 层 网 络 设备 在 成 功 将 一 个 分 组 传输 到 主 存 中 后 ， 也 会 用 中 断 的 方式 
通知 驱动 程序 ， 后 者 负责 分 配 一 个 新 的 skb 来 容纳 该 新 入 的 分 组 ， 然 后 通过 调用 netif rx 
图 数 通 知 网 络 子 系统 高 层 新 数据 包 到 达 。 


本 章 也 讨论 了 分 组 发 送 过 程 中 的 流 控 机 制 ， 其 目的 是 尽量 在 初期 对 一 个 可 能 不 会 成 功 发 送 
出 去 的 分 组 不 使 用 驱动 程序 中 的 发 送 函数 ， 这 样 可 以 避免 系统 资源 的 浪费 ， 内 核 为 此 提供 
了 netif stop queue. netif start queue 等 流 控 函 数 供 驱 动 程序 使 用 。 


本 章 最 后 还 讨论 了 对 高 速 设备 引入 的 NAPI 机 制 ， 这 种 机 制 混合 了 中 断 与 轮 询 操作 模式 的 
优点 ， 可 避免 对 于 密集 而 至 的 每 个 分 组 都 产生 硬件 中 断 的 问题 ， 因 为 这 可 能 会 导致 CPU 资 
源 的 大 量 消耗 甚至 系统 崩溃 。 但 如 果 驱 动 程序 要 使 用 这 种 机 制 ， 则 需要 在 其 内 部 按照 内 核 
中 NAPI 机 制 的 要 求实 现 对 应 的 函数 。 
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